Généalogie et intelligence artificielle : un nouveau pas dans l’amélioration des usages

Intelligence Artificielle et Généalogie

Nous y sommes déjà ! “Les métiers du futur” . L’on sait que les métiers qu’exerceront nos enfants n’existent sans doute pas encore, avec en tête, ceux d’éducateur de robots et d’éthicien de l’intelligence artificielle. Dans le domaine de la généalogie, si tout n’est pas encore couvert par les méthodes de l’archivage et de la numérisation, c’est en passe de l’être…et d’être déjà dépassé. L’innovation nous rattrape, la sphère web et la mondialisation des informations l’exige.

Qu’est-ce que l’Intelligence Artificielle ?

Les définitions sont multiples. On s’accorde à dire qu’il s’agit d’un moyen de permettre aux machines de penser et de se comporter intelligemment. Ces dernières étant contrôlés par des logiciels internes, cela a donc un lien fort avec la performance de programmes développés pour des logiciels, dits « intelligents ». C’est une science permettant de trouver des théories et méthodologies pouvant aider les machines à comprendre et à réagir à l’environnement au sens large comme le ferait le cerveau de l’homme. Bien sûr après ces généralités démarrent le travail de dizaines d’années de recherches sur des concepts assez différents.

Pourquoi se préoccuper d’Intelligence Artificielle, et plus particulièrement dans le domaine de la généalogie ? Les raisons principales sont que nous vivons dans un monde où :

  • Nous avons affaires à un nombre énorme et insurmontable de données, que le cerveau humain ne peut stocker.
  • Les données proviennent de sources multiples simultanément
  • Les données sont désorganisées souvent « chaotiques »
  • Les connaissances dérivées de ces données ont besoin d’être réactualisées constamment et ce en temps réel, avec une extrême précision.

Même si le cerveau humain a une capacité sous-estimée, il ne peut pas répondre à l’ensemble de ces nouvelles exigences. Aujourd’hui l’avancée de l’informatique, de l’environnement web, a permis de nombreuses avancées.

L’Intelligence artificielle en est un bon exemple qui recherche des méthodes de résolution de problèmes à forte complexité logique ou algorithmique. Les dizaines de millions de bases de données généalogiques existantes ont données naissance à de nombreuses plateformes web, permettant de rechercher, de traiter, d’organiser, de l’information, et ce dans le monde entier.

L’enjeu aujourd’hui est encore plus important. Il est d’abord lié au nombre croissant de généalogistes amateurs dans le monde, et utilisant les plateformes web généalogiques. Mais il répond également à l’exigence des utilisateurs, généalogistes amateurs, d’aller au-delà des simples recherches d’actes de naissances, mariages, décès. L’intérêt se tourne également vers la connaissance des ancêtres au travers de leur environnement : géographique (cadastre), l’information iconographique, supports de journaux, cartes postales…. Ainsi que de manière récente l’ADN.

Quels sont les apports de l’Intelligence Artificielle ?

Pour répondre à ces nouveaux usages de la généalogie, les apports de l’Intelligence Artificielle (I.A) sont multiples. La gouvernance de la data apparaît en effet comme la seule solution pour éviter l’éparpillement des ressources, le temps perdu en recherche d’informations ou les documents jamais retrouvés.

L’I.A permet dans ce cadre d’enrichir la valeur des données que l’on stocke au sein de référentiels documentaires. Cela se traduit par une meilleure description du document grâce au référencement automatique facilitant de fait sa recherche. Cela permet également de le faire ressortir dans des contextes plus pertinents et ce plus rapidement. L’IA permet en effet de gagner du temps sur la phase de qualification des documents, en faisant également ressortir les erreurs.

Il permet ainsi de vulgariser la discipline. L’activité généalogique peut devenir plus accessible au plus grand nombre. Faciliter les recherches sur internet, trouver ses ancêtres plus rapidement pour être en mesure de bâtir son arbre, construire son histoire familiale : ce sont les améliorations d’aujourd’hui et celles encore plus pointues de demain.

Exemple de l’utilisation de l’Intelligence Artificielle par Ancestry

Partons un peu loin d’abord pour illustrer le mariage de l’Intelligence Artificielle et de la généalogie : les Etats-Unis. Pourquoi ? Parce qu’Ancestry.com LLC, société en ligne privée basée à Lehi (Etats de l’Utah) est la plus grande entreprise de généalogie à but lucratif au monde. Créée il y a 20 ans, propriété des Mormons, elle exploite un réseau de sites généalogiques, historiques et de sites de généalogie génétique. Avec ses 20 téraoctets, il s’était classé rapidement parmi les 10 premiers sites Web mondiaux en quantité de données hébergées. Aujourd’hui sur le plan technologique, Ancestry traite environ 10 petabytes de données pour environ 3 millions d’abonnés payants, incluant 20 milliards d’enregistrements d’actes de naissances, mariages, décès, services militaires, et immigration. En moyenne plus de 75 millions de recherches sont effectuées chaque jour sur les serveurs d’Ancestry.

L’utilisation de l’Intelligence Artificielle pour Ancestry a permis de répondre à plusieurs enjeux : faire baisser les coûts de sa présence sur le web, diminuer le temps des recherches parmi les millions de documents disponibles, et enfin répondre à de nouveaux marchés. En effet Ancestry compte déjà une nouvelle base de données de 4 millions de profils génétiques, permettant ainsi aux chercheurs d’optimiser leurs recherches généalogiques en déposant les résultats de tests ADN. Ancestry a d’abord effectué deux ans de travail pour faire migrer sa base données depuis ses data-centers vers les services web d’Amazon. Ces services se basent sur l’Intelligence Artificielle et le « machine learning » pour aider ses utilisateurs à se connecter aux millions d’arbres généalogiques et enregistrements historiques. Les outils permettent de connecter les arbres généalogiques entre eux automatiquement et ainsi de permettre la mise en relation les personnes !

L’objectif final d’Ancestry est d’améliorer la performance de ses services à la clientèle en créant un système innovant basé sur la rapidité de l’infrastructure informatique. Après la mise en place de Web Service Amazon, Ancestry a pu constater une augmentation d’au moins 50% de sa ressource et une diminution du coût de sa migration initiale vers Amazon Services.

Projets d’Intelligence Artificielle en France et en Europe

L’on peut citer en France deux projets innovants liés à la généalogie, développés grâce à des partenariats entre des entreprises, des laboratoires de recherche publiques et des institutions.

Himanis

HIMANIS (HIstorical MANuscript Indexing for user-controlled Search)est un projet européen lancé en 2015, mené par l’IRHT (Institut de Recherche et d’Histoire des Textes), et qui a pour objet l’étude des registres de la chancellerie royale des XIVe et XVe siècles français. Ce projet associe la Société A2iA* spécialisée dans la reconnaissance d’écriture manuscrite, l’université espagnole de Valencia, l’université néerlandaise de Groningen Europeana, la Bibliothèque nationale de France et les Archives nationales. L’enjeu technologique majeur était de procéder à une reconnaissance par ordinateur des écritures médiévales qui soit suffisamment fiable pour offrir aux usagers un moteur de recherche en plein texte dans les registres, dont une partie n’est pas encore couverte par les inventaires ou les index. 199 volumes manuscrits du moyen-âge, ont ainsi  été « lus » et indexés par l’Intelligence Artificielle. Il est aujourd’hui possible d’effectuer une recherche en plein texte dans les registres de la chancellerie royale, parmi 83 320 pages numérisés (nb de l’auteur : je l’ai testé et ai retrouvé 119 correspondances avec mon arbre généalogique sur ces manuscrits… en moins de 5 minutes…Fabuleux !). Un tour de force : les textes contiennent 60 % de mots en latin et sont rédigés en écriture cursive. Une interface de consultation des données, conjuguant un accès aux images, aux transcriptions et aux analyses archivistiques, a été également développée.

* A2iA  (groupe Mitek Systems), une entreprise leader spécialisée dans les solutions digitales de vérification d’identité. Elle est à l’origine de la solution de capture de documents de paiements à distance Mobile Deposit®. Les kits de développement logiciel d’A2iA permettent la reconnaissance de l’écriture manuscrite, l’extraction de texte et la classification documentaire. Quel que soit le mode de capture d’image, qu’il s’agisse d’un scanner de bureau ou d’un appareil mobile, A2iA fournit des capacités supplémentaires permettant d’accélérer et de simplifier l’automatisation, et de capturer rapidement tous types de données.

LECTAUREP

LECTure Automatique de REPertoires
Le projet LECTAUREP vise à bouleverser l’usage qui est actuellement fait des répertoires d’actes de notaires par les chercheurs et usagers des fonds notariés d’archives. Les repertoires des études notariales sont des registres dans lesquels un clerc consigne, dans l’ordre chronologique et pour chaque jour, les actes qui ont été passés et enregistrés dans son étude. En France, depuis 1803, le répertoire est normalisé, et enrichi dans ses contenus. L’on comptabilise ainsi à Paris, pour donner un exemple, environ 1800 Registres entre 1803 et 1940 provenant de 917 notaires.

Les Archives Nationales de Paris conservent les fonds des 122 études notariales de la capitale. C’est le « Minutier central des notaires de Paris », crée en 1928. Il comporte :

  • 20 millions de minutes, 3 300 répertoires
  • 172 000 liasses et registres soit 26 000 mètres linéaires !

Le Projet LECTAuREP vise à transcrire l’ensemble de ces documents sur une plateforme en ligne permettant d’y effectuer des recherches avancées, des lectures, analyses, des écrits organisés dans les répertoires des notaires.

L’intervention de l’Intelligence Artificielle doit donc permettre :

  • La reconnaissance automatique de structures et d’écriture manuscrite
  • La mise à disposition des images numérisées de ces répertoires

Ce qui à terme donnera la possibilité d’agir sur une multitudes de types d’informations (historique, personnelle, cartographique,…) , une mine d’or pour les généalogistes !

N’oublions cependant pas que derrière chaque « machine », il y a des hommes. L’avenir de l’Intelligence Artificielle passera d’abord par la formation. Même en actant le potentiel révolutionnaire de l’Intelligence Artificielle dans tous les aspects de notre vie, il est impératif de relever les défis éthiques liés à son développement et son déploiement. C’est déjà ce que l’on peut constater lorsque l’I.A débusque de nouvelles branches dans l’arbre généalogique des humains dans les bases de données ADN….

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *