Les archives municipales de Belfort et TEKLIA vous invitent à participer à une campagne de transcription collaborative afin d'entrainer un système de reconnaissance automatique d'écriture manuscrite basée sur des algorithmes d'intelligence artificielle.

Un échantillon aléatoire de 419 pages issues des registres des délibérations du conseil municipal a été constitué et est proposé à la transcription collaborative dans la plateforme Callico.

belfort_sample
Echantillon de pages des registres

La transcription collaborative est ouverte à toutes et à tous et il n'est pas nécessaire d'avoir des compétences en paléographie (lecture des écritures anciennes). Si certaines pages sont trop difficiles à lire, vous pouvez juste les passer.

Mais avant de vous lancer dans la transcription, il est nécessaire de vous inscrire sur la plateforme Callico et de lire les instructions de transcription.

1. Se créer un compte sur Callico et se connecter

signup

2. Demander des tâches

Sur l'onglet "Projets publics", demander des tâches sur la campagne d'annotation "Collection de registres de délibérations municipales"

projet

3. Voir vos tâches

Dans l'onglet "Mes projets", cliquer sur "Mes tâches" dans la campagne "Collection de registres de délibérations municipales"

taches

4. Lire les instructions

Lire les instructions et cliquer sur "Annoter" pour commencer la transcription

instructions

Les instructions de transcription sont les suivantes:

  • L’écran d’annotation se divise en deux parties : à gauche, le registre à transcrire, à droite, le formulaire d’annotation.
  • Chaque ligne de texte à transcrire correspond à une ligne d’annotation. Les lignes correspondantes sont surlignées en bleu.
  • Pour chaque ligne, bien vérifier que l’annotation saisie correspond bien au texte surligné dans le registre.
  • Si certaines zones du registre ne sont pas surlignées, ne pas les annoter.
  • Si le surlignage d’une zone couvre plusieurs lignes du registre, laisser la ligne d’annotation vide
  • Corriger les fautes d’orthographe ou de conjugaison.
  • Rétablir la ponctuation et les majuscules.
  • Développer les abréviations.
  • En cas de doute, transcrire du mieux possible sans ajouter de caractères. Marquer la ligne comme "incertain" avec le bouton jaune [!]
  • Si plusieurs mots sont illisibles, laisser la ligne d'annotation vide
  • Ne pas annoter les signatures illisibles.
  • En cas de page de mauvaise qualité et illisible, sauter la page complètement en cliquant sur "Ignorer la tâche".
  • Vous pouvez signaler un problème majeur avec le drapeau rouge en haut de la page.

5. Transcrire

Transcrire chaque ligne en suivant les consignes. Quand toutes les lignes ont été transcrites, cliquer sur "Annoter".

transcription

NB : les pages que vous avez déjà annotées se trouvent dans l'onglet "Annotée" de votre espace "Mes tâches". Vous pouvez les corriger en cliquant sur le bouton "Annoter" en regard de chaque page.

Lorsque vous avez annoté toutes les pages proposées dans vos tâches, vous pouvez demander de nouvelles pages en cliquant sur "Demander des tâches".

Vous pouvez nous signaler tout problème ou toute difficulté avec le drapeau rouge sur la page de transcription.

Et ensuite ?

Une fois l'échantillon annoté, un système de reconnaissance d'écriture manuscrite sera entrainé avec les transcriptions collaboratives. Le système sera ensuite appliqué à l'ensemble des registres des délibérations du conseil, qui seront ainsi disponibles pour une recherche plein texte.

Puis le modèle sera utilisé comme modèle de base pour traiter les registres d'autres communes !

TEKLIA s'implique dans l'open source

Chez TEKLIA, nous sommes très investis dans la communauté open-source, non seulement en tant qu'utilisateurs mais aussi en tant que contributeurs. Pour la reconnaissance d'écriture, nous croyons que la mise à disposition des données, du code et des modèles permettra une adoption par le plus grand nombre :

  • nous publions et maintenons notre code en open source sur Gitlab avec en particulier:
    • Doc-UFCN, une librairie de détection d'objets dans les documents numérisés
    • PyLaia, un librairie de reconnaissance d'écriture manuscrite
    • Nerval, une librairie d'évaluation d'extraction d'entités nommées
  • nous publions nos modèles en accès libre sur HuggingFace