Généalogie et intelligence artificielle : un nouveau pas dans l’amélioration des usages

Inetlligence Artificielle et Généalogie 2022

Généalogie et intelligence artificielle : nous sommes déjà dans les usages du futur
L’on sait que les métiers qu’exerceront nos enfants n’existent sans doute pas encore, avec en tête, ceux d’éducateur de robots et d’éthicien de l’intelligence artificielle. Dans le domaine de la généalogie, les méthodes de l’archivage et de la numérisation, sont presque en état d’être déjà dépassé. L’innovation nous rattrape, la sphère web et la mondialisation des informations l’exige.

Qu’est-ce que l’Intelligence Artificielle ?

Les définitions sont multiples. On s’accorde à dire qu’il s’agit d’un moyen de permettre aux machines de penser et de se comporter intelligemment. Ces dernières étant contrôlés par des logiciels internes, cela a donc un lien fort avec la performance de programmes développés pour des logiciels, dits « intelligents ». C’est une science permettant de trouver des théories et des méthodologies pouvant aider les machines à comprendre et à réagir à l’environnement au sens large comme le ferait le cerveau de l’homme. Bien sûr, après ces généralités, commence le travail de dizaines d’années de recherches sur des concepts assez différents.

Pourquoi se préoccuper d’Intelligence Artificielle, et plus particulièrement dans le domaine de la généalogie ? Les raisons principales sont que nous vivons dans un monde où :

  • Nous avons affaires à un nombre énorme et insurmontable de données, que le cerveau humain ne peut stocker.
  • Les données proviennent de sources multiples simultanément, parfois désorganisées ou « chaotiques ».
  • Les connaissances ont besoin d’être réactualisées constamment et ce en temps réel, avec une extrême précision.

L’Intelligence artificielle recherche des méthodes de résolution de problèmes à forte complexité logique ou algorithmique. Les dizaines de millions de bases de données généalogiques existantes ont donné naissance à de nombreuses plateformes web, permettant de rechercher, de traiter, d’organiser, de l’information, et ce, dans le monde entier.

L’enjeu aujourd’hui est encore plus important. Il est d’abord lié au nombre croissant de généalogistes amateurs dans le monde, et utilisant les plateformes web généalogiques. Mais il répond également à l’exigence des utilisateurs, généalogistes amateurs, d’aller au-delà des simples recherches d’actes de naissances, mariages, décès. L’intérêt se tourne aussi vers la connaissance des ancêtres au travers de leur environnement : géographique (cadastre), l’information iconographique, supports de journaux, cartes postales…. Ainsi que de manière récente l’ADN.

Quels sont les apports de l’Intelligence Artificielle ?

Pour répondre à ces nouveaux usages de la généalogie, les apports de l’Intelligence Artificielle (I.A) sont multiples. La gouvernance de la data apparaît en effet comme la seule solution pour éviter l’éparpillement des ressources, le temps perdu en recherche d’informations ou les documents jamais retrouvés.

L’I.A permet dans ce cadre d’enrichir la valeur des données que l’on stocke au sein de référentiels documentaires. Cela se traduit par une meilleure description du document grâce au référencement automatique, facilitant de fait sa recherche.

Il permet ainsi de vulgariser la discipline. L’activité généalogique peut devenir plus accessible au plus grand nombre. Faciliter les recherches sur internet, trouver ses ancêtres plus rapidement pour être en mesure de bâtir son arbre, construire son histoire familiale : ce sont les améliorations d’aujourd’hui et celles encore plus pointues de demain.

Exemple de l’utilisation de l’Intelligence Artificielle par Ancestry

Ancestry.com LLC, société américaine en ligne basée à Lehi (Utah) est la plus grande entreprise de généalogie à but lucratif au monde. Créée il y a 20 ans, propriété des Mormons, elle exploite un réseau de sites généalogiques, historiques et de sites de généalogie génétique. Avec ses 20 téraoctets, il s’était classé rapidement parmi les 10 premiers sites Web mondiaux en quantité de données hébergées. Ancestry dispose de la plus grande base ADN généalogique grand public avec 20 millions de profils. Aujourd’hui, sur le plan technologique, Ancestry traite environ 10 petabytes de données, incluant 30 milliards d’enregistrements d’actes de naissances, mariages, décès, services militaires et immigration. Ancestry héberge plus de 120 millions d’arbres généalogiques contenant 16 milliards d’individus. En moyenne, plus de 75 millions de recherches sont effectuées chaque jour sur les serveurs d’Ancestry.

L’utilisation de l’Intelligence Artificielle pour Ancestry a permis de répondre à plusieurs enjeux : faire baisser les coûts de sa présence sur le web, diminuer le temps des recherches, et enfin répondre à de nouveaux marchés. Son premier travail : faire migrer sa nouvelle base de données de profils génétiques afin de faciliter aux chercheurs leurs recherches généalogiques. Ancestry a d’abord effectué deux ans de travail pour faire migrer sa base de données depuis ses data-centers vers les services web d’Amazon. Les outils d’IA et de « machine learning » permettent de connecter les arbres généalogiques entre eux automatiquement et ainsi de permettre la mise en relation les personnes !

Exemple de l’utilisation de l’IA par MyHeritage

Grâce à l’Intelligence Artificielle, l’autre grand géant de la généalogie sur le web, MyHeritage, a développé un nouveau service : « Deep Nostalgia ». Celui-ci est capable d’animer des images figées par la technologie du deepfake. Il est ainsi possible par exemple de redonner vie aux portraits de nos ancêtres. L’intelligence artificielle est aussi capable de prendre en charge des peintures, avec un résultat particulièrement impressionnant.

Exemple de vidéo réalisée sur MyHeritage

Exemple de l’utilisation de l’IA par READ-COOP SCE : Transkribus

Issu de deux projets de recherche européens démarrés en 2013 (READ-EU), Transkribus est une plateforme complète de reconnaissance de texte, d’analyse d’images et de reconnaissance de structure de documents historiques. En juin 2020, la société Resad-Coop Sce enregistrait plus de 37 000 utilisateurs.

L’outil de transcription, Transkribus, fait appel à l’intelligence artificielle, en particulier l’apprentissage automatique, pour améliorer son module de reconnaissance de caractère optique de l’écriture manuscrite ancienne.

Sa force : une facilité d’utilisation puisque l’on peut accéder à ses documents depuis n’importe quel navigateur, à tout moment et dans n’importe quelle langue.

Projets d’Intelligence Artificielle en France et en Europe

L’on peut citer en France cinq projets innovants liés à la généalogie, développés grâce à des partenariats entre des entreprises, des laboratoires de recherche publiques et des institutions.

Himanis

HIMANIS (HIstorical MANuscript Indexing for user-controlled Search)est un projet européen lancé en 2015, mené par l’IRHT (Institut de Recherche et d’Histoire des Textes). Ce projet a pour objet l’étude des registres de la chancellerie royale des XIVe et XVe siècles français. Ce projet associe la Société A2iA* spécialisée dans la reconnaissance d’écriture manuscrite, l’université espagnole de Valencia, l’université néerlandaise de Groningen Europeana, la Bibliothèque nationale de France et les Archives nationales. L’enjeu technologique majeur était de procéder à une reconnaissance par ordinateur des écritures médiévales qui soit suffisamment fiable pour offrir aux usagers un moteur de recherche en plein texte dans les registres, dont une partie n’est pas encore couverte par les inventaires ou les index. 199 volumes manuscrits du moyen-âge ont ainsi été « lus » et indexés par l’Intelligence Artificielle. Il est aujourd’hui possible d’effectuer une recherche en plein texte dans les registres de la chancellerie royale, parmi 83 320 pages numérisés (NB de l’auteur : je l’ai testé et ai retrouvé 119 correspondances avec mon arbre généalogique sur ces manuscrits… en moins de 5 minutes… Fabuleux !). Un tour de force : les textes contiennent 60 % de mots en latin et sont rédigés en écriture cursive.

LECTAUREP

LECTure Automatique de REPertoires
Le projet LECTAUREP vise à bouleverser l’usage qui est actuellement fait des répertoires d’actes de notaires par les chercheurs et usagers des fonds notariés d’archives. Les répertoires des études notariales sont des registres dans lesquels un clerc consigne, dans l’ordre chronologique et pour chaque jour, les actes qui ont été passés et enregistrés dans son étude. En France, depuis 1803, le répertoire est normalisé, et enrichi dans ses contenus. L’on comptabilise ainsi à Paris, pour donner un exemple, environ 1800 Registres entre 1803 et 1940 provenant de 917 notaires.

Les Archives Nationales de Paris conservent les fonds des 122 études notariales de la capitale ! C’est le « Minutier central des notaires de Paris », crée en 1928. Il comporte :

  • 20 millions de minutes, 3 300 répertoires
  • 172 000 liasses et registres soit 26 000 mètres linéaires

Le Projet LECTAuREP vise à transcrire l’ensemble de ces documents sur une plateforme en ligne permettant d’y effectuer des recherches avancées, des lectures, analyses, des écrits organisés dans les répertoires des notaires.

L’intervention de l’Intelligence Artificielle doit donc permettre :

  • La reconnaissance automatique de structures et d’écriture manuscrite
  • La mise à disposition des images numérisées de ces répertoires

Ce qui à terme donnera la possibilité d’agir sur des multitudes de types d’informations (historique, personnelle, cartographique, …) , une mine d’or pour les généalogistes !

SIMARA : faciliter le travail des archivistes

Les Archives Nationales Françaises sont lauréates du plan national de relance avec le projet SIMARA (Saisie d’Inventaires Manuscrits Assistée par Reconnaissance Automatique) pour développer une plate-forme web de rétro-conversion des inventaires et index manuscrits, de la fin du XVIIIe au XXe siècle des archives du Moyen Age et de l’Ancien Regime.
Concrètement, SIMARA réalise simultanément deux opérations : la transcription automatique grâce à la reconnaissance d’écritures manuscrites et le placement du texte dans un formulaire dont les champs correspondent à des éléments de balisage des descriptions d’archives. Et permet de gagner du temps.

Socface : premier projet de grande ampleur pour analyser les évolutions démographiques

Ce projet culturel de reconnaissance automatique d’écritures manuscrites, le premier d’ampleur nationale, traitera 15 millions d’images de listes nominatives du recensement grâce à l’I.A. Il produira une base de données de tous les individus ayant vécu en France entre 1836 et 1936 et l’utilisera pour analyser les changements sociaux dans la longue durée. À ce jour, déjà 3 millions d’images ont été collectées dans les Archives Départementales.
SOCFACE associe le ministère de la Culture (service interministériel des Archives de France), les services publics d’archives et des acteurs de la recherche et de l’innovation (Institut national d’études démographiques, la société Teklia, Paris Sciences et Lettres.
L’impact majeur de SOCFACE sera l’accès aux listes nominatives pour le grand public, et notamment les généalogistes : l’opportunité de parcourir librement des centaines de millions de données !

La Nouvelle-France numérique : un exemple de projet à la frontière des disciplines

Ce projet est le fruit d’un partenariat entre chercheurs et institutions d’archives au Québec et au Canada : Bibliothèque et Archives nationales du Québec (BAnQ), Bibliothèque et Archives du Canada (BAC), le Musée de la civilisation de Québec (MCQ), la Division de la gestion de documents et des archives et la Bibliothèque des livres rares de l’Université de Montréal.

La période de la Nouvelle-France, longue de plus de deux siècles (17ᵉ et 18ᵉ siècle), est au cœur des identités canadienne, québécoise et autochtone. Une histoire éloignée porteuse de documents très divers, ou d’objets, qui peuvent recéler des renseignements importants. Le projet est innovant : croiser l’étude des textes avec celui du support (papier). L’I.A est ici mis à contribution à la fois pour saisir la nature complexe de ces données et bien interpréter leur signification.

Le projet Nouvelle-France poursuit plusieurs objectifs : approfondir la compréhension du processus de production documentaire en Nouvelle-France ; regrouper les résultats dans une plate-forme web commune permettant une recherche simultanée des données.

Enfin, un point important de ce projet mis en avant est le partenariat pour assurer à long terme la pérennité des données et la diffusion à l’international.
N’oublions pas, en effet, que derrière chaque « outil d’Intelligence Artificielle », il y a des hommes.