Le projet ModOAP est conçu autour de deux objectifs principaux. En premier lieu, nous avons développé une boîte à outils d’analyse de données massives pour des projets consacrés aux Sciences Humaines et Sociales, disponible en ligne. Elle repose sur des modèles pouvant être aisément adaptés à différents types de corpus textuels et graphiques, et comportera des programmes réutilisables par les institutions et laboratoires impliqués dans le Labex, et plus généralement par l’ensemble de la communauté scientifique en SHS. Ces outils (téléchargement de corpus depuis Gallica, segmentation de pages et extraction d’illustrations, classification automatique d’images, statistiques textuelles) ont fait l’objet d’une élaboration collective en partenariat avec d’autres projets du Labex et d’ateliers de formation à destination des chercheurs. En second lieu, ce projet a testé ces outils sur deux corpus particulièrement importants pour l’analyse de la construction d’une mémoire collective : les manuels scolaires, à travers les fonds numérisés par la BnF, et le photoreportage, par le biais du fonds Élie Kagan conservé à La Contemporaine. Le traitement d’un corpus de romans scolaires a donné lieu à la production d’un site interactif permettant d’explorer ces ouvrages à travers les personnalités et les lieux qu’ils mentionnent, et de reconstruire les représentations de l’histoire et de la géographie de la France transmises aux enfants à la fin du XIXe siècle. Le travail sur le fonds Kagan a permis l’élaboration d’une borne interactive, disponible également en ligne, offrant au public trois portes d’entrée dans cette archive photographique : l’analyse des circulations des images dans la presse, grâce au repérage automatique de doublons graphiques ; une cartographie de l’ensemble des photographies numérisées autorisant une exploration visuelle de ce fonds ; un classement thématique à partir des principaux mots-clefs utilisés dans les descriptifs des images. Grâce à l’analyse de données massives permise par les outils d’apprentissage profond, nous souhaitons explorer la construction d’une mémoire institutionnelle et scolaire et sa transmission par les manuels, et comprendre la manière dont la presse peut contribuer à la formation d’une mémoire collective médiatique, par la réutilisation et la rediffusion d’images sur le temps long.
Responsable du Projet
Julien SCHUH , Université Paris Nanterre – CSLF EA 1586
Partenaires au sein du labex
- Bibliothèque nationale de France (BnF)
- Centre des Sciences des Littératures en langue Française (CSLF) – EA 1586
- La contemporaine | bibliothèque, archives, musée des mondes contemporains
- Modèles, Dynamiques, Corpus (MoDyCo) – UMR 7114
- Huma-Num : la TGIR des humanités numériques
Autres partenaires associés
Projet ANR « Numapresse »
http://www.numapresse.org/
Projet ARTEC « La preuve par l’image »
http://eur-artec.fr/2020/02/03/la-preuve-par-limage-de-la-contre-histoire-au-complotisme/
Projet IUF « Synthétismes fin de siècle »
https://crimel.hypotheses.org/1317
Durée du projet
24 mois
Mots-clés
apprentissage profond, intelligence artificielle, boîte à outils, humanités numériques