Quand le traitement automatique des documents rencontre l'histoire égyptienne

Exploration des vestiges d'un village de l'Egypte ancienne

Il y a cent ans, de 1922 à 1952, une campagne cruciale de recherches archéologiques a été menée à Deir el-Medina (Égypte), un village dont les habitants étaient tous impliqués dans la construction et la décoration des tombes et des temples funéraires des pharaons du Nouvel Empire. Le chef des fouilles, l'archéologue français Bernard Bruyère, a minutieusement consigné les découvertes faites, concernant la vie quotidienne de cette communauté d'un point de vue social, professionnel et religieux.

deir
Ancient artisans’ village Deir el-Medina close to Luxor in Upper Egypt

Quatre carnets manuscrits ont été remplis à la fin de la campagne. Ils ont tous été numérisés et sont désormais consultables sur le site de l'Institut Français d'Archéologie Orientale (IFAO) basé au Caire. Teklia a été sélectionné par l'IFAO pour réaliser une transcription intégrale des carnets et fournir une plateforme où ces documents pourront être indexés et consultés.

Entraînement de modèles Deep Learning pour la reconnaissance de texte manuscrit avec Arkindex

La plateforme de traitement de documents de Teklia, Arkindex, a été le principal outil utilisé sur ce projet. Les mille pages de notes minutieusement prises par Bernard Bruyère devaient être traitées efficacement et transcrites avec un haut niveau de qualité.

Ce projet a nécessité l'entraînement de modèles spécifiques pour détecter les lignes sur les pages numérisées, et pour reconnaître le type d'élément qui était écrit ou dessiné sur les carnets. Afin de générer la vérité terrain permettant l'entraînement des modèles, les membres de l'IFAO ont annoté des documents directement sur la plateforme Arkindex. Ensuite, un modèle a été entraîné à transcrire les textes, pour créer une base de données numérique que les membres de l'IFAO peuvent librement consulter sur la plateforme.

ifao1
The models first needed to be trained into detecting lines of text.

Faire face à la diversité des éléments à détecter et à reconnaître

Tout au long de cette importante campagne archéologique, M. Bruyère s'est attaché à fournir aux futures générations d'égyptologues un maximum d'informations. Les séries de notes, complètes et minutieusement organisées, constituent un véritable témoignage de l'histoire des campagnes. Elles comprennent des textes, des croquis et d'autres illustrations de la main de l'archéologue principal, qui ne peuvent être séparés du reste des notes. Par conséquent, le processus de reconnaissance automatique de texte manuscrit devait être complété par les connaissances des membres de l'IFAO, lorsqu'il s'est agit d'annoter les illustrations.

ifao23
Examples of pages which included both text lines and illustrations.

Combinaison de l'HTR avec les annotations d'illustrations

Une fois les modèles entraînés, le processus de reconnaissance d'écriture proprement dit a été très rapide et a produit une transcription avec un taux d'erreur caractère d'environ 4.5%. Arkindex est en effet spécialisé dans l'entraînement de modèles de Deep Learning pour la reconnaissance de texte manuscrit, livrant des résultats précis de transcription à partir d'une page numérisée en quelques secondes. Cependant, le projet nécessitait plus qu'un traitement automatique du document, notamment en ce qui concerne la reconnaissance d'illustrations, au milieu des lignes de texte.

ifao4
Bounding boxes surrounding both text lines and illustrations.

Ainsi, les archéologues de l'IFAO ont eu accès à la base de données organisée sur Arkindex pour ce projet, afin d'annoter manuellement toutes les illustrations avec des méta-données.

ifao5
Example of manual annotation brought by IFAO

Cette combinaison gagnante d'intelligence artificielle et de connaissances humaines permet à Teklia de proposer une indexation encore plus précise des carnets.

ifao6
Example of a search both on full text and metadata in the collection

Que reste-t-il à faire ?

A ce jour, la reconnaissance de texte manuscrit a été exécutée sur l'ensemble de la collection de pages et doit être complétée par les futures annotations des différents croquis. La prochaine étape de ce projet pour Teklia est de construire un site web et de l'alimenter avec toutes les données recueillies sur Arkindex pour ce projet, afin de créer une forme d'exposition virtuelle présentant la campagne de M. Bruyère, à l'occasion de son centenaire.

Image credits: * Djehouty, CC BY-SA 4.0 , via Wikimedia Commons * IFAO - Institut français d'archéologie orientale