Agorha, Arago, Gallica, Joconde, Mandragore… La multiplication du nombre de bases de données constituées à partir de la numérisation massive de fonds et collections patrimoniales pose la question pressante de l'optimisation de leur exploitation et du besoin d’outils adaptés. L’analyse automatisée de ces très larges groupes d’images et objets est rendue possible par le développement d’algorithmes adossés aux technologies d’intelligence artificielle (IA), de machine learning et machine vision (lire l'article du 2 juin 2023 ). C’est justement l’un des objectifs de PictorIA , lancé il y a quelques mois. Porté par la Maison des Sciences de l’Homme Mondes, à Nanterre, ce consortium vise à fédérer des recherches interdisciplinaires autour de la reconnaissance automatique des formes en sciences humaines et sociales à partir de corpus visuels numériques.
Dans le sillage grandissant des humanités numériques, l'ensemble chapeauté par Huma-Num (infrastructure financée par le ministère de l'Enseignement supérieur et de la Recherche, ndlr ) réunit plusieurs centres de recherche et institutions : la BnF, l’INHA, l’INA, l’École nationale des chartes ou encore La Contemporaine - Bibliothèque, archives, musée des mondes contemporains (Université Paris Nanterre). L'approche réunit divers métiers : chercheurs, professionnels du patrimoine, archivistes, ingénieurs. « PictorIA est né d’un besoin face à l’offre d’outils IA proposés notamment par les GAFAM, qui sont certes très nombreux mais essentiellement entraînés sur des objets contemporains et par conséquent inadaptés à nos objets de recherche historiques », explique Julien Schuh, spécialiste des humanités numériques, au comité de pilotage de cette nouvelle structure. Le consortium s'inscrit dans la continuité du labex Les passés dans le présent , pour lequel Julien Schuh a dirigé plusieurs projets et développé des boîtes à outils d’IA, dont EyCON - Early Conflict Photography 1890-1918 and Visual AI , BaOIA (boîte à outils d’intelligence artificielle) et ModOAP , qui repose sur des « modèles et outils d’apprentissage profond » .
Mémoire activable
Grâce à ce genre d’outils simples à manier, les chercheurs peuvent rapidement automatiser différentes tâches : téléchargement de corpus massifs, par exemple depuis Gallica (bibliothèque numérique de la BnF), segmentation de pages, extraction d’illustrations, classification automatique d’images, recherche de similarités, ou encore vectorisation d’images permettant la détection et le détourage d’objets. « Avant de pouvoir monter en puissance et en généralisation, ces modèles algorithmiques ont d’abord été testés sur des études de cas. Comme sur ce corpus de 60 000 photographies numérisées du photoreporter Élie Kagan, dont le fonds est conservé à La Contemporaine, précise Julien Schuh. L’idée était aussi de répondre à de nouvelles questions de recherche. Comment faire parler un très large corpus, en réactiver la mémoire et en redéfinir les contours ? Comment faire émerger certaines images enfouies dans la masse, que l'on n’est plus capable de voir ? Comment comprendre les logiques de circulation et de viralité des images dans la presse, qui ne sont pas des objets figés mais vivants ? »
La recherche multimodale, capable de traiter images et textes à la fois dans un même document grâce à l’addition d’un outil de reconnaissance automatique des caractères, fait partie des enjeux techniques, en particulier pour les fonds détenus par les bibliothèques. « Dans nos collections d’imprimés, nous avons souvent besoin de séparer le texte de l'image. Nous extrayons automatiquement et isolons les éléments iconographiques, comme cela a été le cas pour la création de Mandragore (base iconographique des manuscrits de la BnF, ndlr ) , développe Jean-Philippe Moreux, expert scientifique Gallica à la BnF, spécialisé dans l’application de l’IA aux corpus patrimoniaux, et membre de PictorIA. Nous comptons étendre ce projet aux parties illustrées de Gallica. Avec des IA bien entraînées, par exemple à partir de scans de journaux comme Le Monde ou Le Figaro , nous pourrons extraire automatiquement les photos sur une période de 50 ou même 100 ans. » De telles bases iconographiques pourront ainsi servir, notamment, aux recherches en histoire de la photographie ou des représentations.
Comparaison d’images sur des vases grecs antiques
Les techniques de reconnaissance de formes réactivent aussi le domaine de l’archéologie et l’étude d’objets plus anciens. « Avec des modèles fondés sur l’analyse automatisée de similarités entre les images, on parvient à combler les vides à partir de fragments et d’images parcellaires, par exemple dans le cas d’anciennes mosaïques. À condition de détenir un solide corpus de référence , explique Anne-Violaine Szabados, ingénieure de recherche, spécialiste du patrimoine culturel et de l’archéologie. Les chercheurs ont de plus en plus recours à des outils de reconnaissance automatique, notamment dans le domaine de l’épigraphie , l’analyse d’inscriptions antiques sur pierre, avec des alphabets souvent très particuliers. Ou encore, par exemple, pour étudier la récurrence de motifs visuels sur les monnaies celtiques dans le cas du projet avec le laboratoire en archéologie AOrOc .»
Pour sa part, Corinna Reinhardt, professeure à l’Institut archéologique de Zurich et spécialiste de l’iconographie de la mythologie grecque antique (domaine de recherche où la comparaison des images est une approche fondamentale), s’investit depuis plusieurs années dans des projets s’adossant à des modèles de computer vision patiemment entraînés. « Je me suis concentrée sur des peintures de vases grecs des VI e et V e siècles av. J.-C. Nous avons engagé une étude iconographique en analysant les similarités entre les images et les motifs récurrents : compositions, types de figures, personnages, gestes, objets, etc. À terme, notre objectif est de rendre les images et la narration compréhensibles pour nous aider à entrer en contact avec ces anciennes sociétés. Nous avons besoin de déceler la portée de ces images culturellement très codées pour comprendre ce qui était important.» Selon la chercheuse, la machine pose un autre regard, ni plus ni moins correct que celui de l’humain. Par sa vision différenciée, elle offre ainsi de nouvelles perspectives.