Quand le traitement automatique des documents rencontre l'histoire égyptienne

Exploration des vestiges d'un village de l'Egypte ancienne

Il y a cent ans, de 1922 à 1952, une campagne cruciale de recherches archéologiques a été menée à Deir el-Medina (Égypte), un village dont les habitants étaient tous impliqués dans la construction et la décoration des tombes et des temples funéraires des pharaons du Nouvel Empire. Le chef des fouilles, l'archéologue français Bernard Bruyère, a minutieusement consigné les découvertes faites, concernant la vie quotidienne de cette communauté d'un point de vue social, professionnel et religieux.

Ancien village d'artisans Deir el-Medina près de Louxor en Haute-Egypte.
Ancien village d'artisans Deir el-Medina près de Louxor en Haute-Egypte.

Quatre carnets manuscrits ont été remplis à la fin de la campagne. Ils ont tous été numérisés et sont désormais consultables sur le site de l'Institut Français d'Archéologie Orientale (IFAO) basé au Caire. Teklia a été sélectionné par l'IFAO pour réaliser une transcription intégrale des carnets et fournir une plateforme où ces documents pourront être indexés et consultés.

Entraînement de modèles Deep Learning pour la reconnaissance de texte manuscrit avec Arkindex

La plateforme de traitement de documents de Teklia, Arkindex, a été le principal outil utilisé sur ce projet. Les mille pages de notes minutieusement prises par Bernard Bruyère devaient être traitées efficacement et transcrites avec un haut niveau de qualité.

Ce projet a nécessité l'entraînement de modèles spécifiques pour détecter les lignes sur les pages numérisées, et pour reconnaître le type d'élément qui était écrit ou dessiné sur les carnets. Afin de générer la vérité terrain permettant l'entraînement des modèles, les membres de l'IFAO ont annoté des documents directement sur la plateforme Arkindex. Ensuite, un modèle a été entraîné à transcrire les textes, pour créer une base de données numérique que les membres de l'IFAO peuvent librement consulter sur la plateforme.

Les modèles ont d'abord dû être entraînés à détecter les lignes de texte.
Les modèles ont d'abord dû être entraînés à détecter les lignes de texte.

Faire face à la diversité des éléments à détecter et à reconnaître

Tout au long de cette importante campagne archéologique, M. Bruyère s'est attaché à fournir aux futures générations d'égyptologues un maximum d'informations. Les séries de notes, complètes et minutieusement organisées, constituent un véritable témoignage de l'histoire des campagnes. Elles comprennent des textes, des croquis et d'autres illustrations de la main de l'archéologue principal, qui ne peuvent être séparés du reste des notes. Par conséquent, le processus de reconnaissance automatique de texte manuscrit devait être complété par les connaissances des membres de l'IFAO, lorsqu'il s'est agit d'annoter les illustrations.

Exemples de pages comportant à la fois des lignes de texte et des illustrations.
Exemples de pages comportant à la fois des lignes de texte et des illustrations.

Combinaison de l'HTR avec les annotations d'illustrations

Une fois les modèles entraînés, le processus de reconnaissance d'écriture proprement dit a été très rapide et a produit une transcription avec un taux d'erreur caractère d'environ 4.5%. Arkindex est en effet spécialisé dans l'entraînement de modèles de Deep Learning pour la reconnaissance de texte manuscrit, livrant des résultats précis de transcription à partir d'une page numérisée en quelques secondes. Cependant, le projet nécessitait plus qu'un traitement automatique du document, notamment en ce qui concerne la reconnaissance d'illustrations, au milieu des lignes de texte.

Boîtes de délimitation entourant les lignes de texte et les illustrations.
Boîtes de délimitation entourant les lignes de texte et les illustrations.

Ainsi, les archéologues de l'IFAO ont eu accès à la base de données organisée sur Arkindex pour ce projet, afin d'annoter manuellement toutes les illustrations avec des méta-données.

Exemple d'annotation manuelle apportée par l'IFAO.
Exemple d'annotation manuelle apportée par l'IFAO.

Cette combinaison gagnante d'intelligence artificielle et de connaissances humaines permet à Teklia de proposer une indexation encore plus précise des carnets.

Exemple de recherche à la fois sur le texte intégral et les métadonnées de la collection.
Exemple de recherche à la fois sur le texte intégral et les métadonnées de la collection.

Que reste-t-il à faire ?

A ce jour, la reconnaissance de texte manuscrit a été exécutée sur l'ensemble de la collection de pages et doit être complétée par les futures annotations des différents croquis. La prochaine étape de ce projet pour Teklia est de construire un site web et de l'alimenter avec toutes les données recueillies sur Arkindex pour ce projet, afin de créer une forme d'exposition virtuelle présentant la campagne de M. Bruyère, à l'occasion de son centenaire.

Image credits:

  • Djehouty, CC BY-SA 4.0 , via Wikimedia Commons
  • IFAO - Institut français d'archéologie orientale