Pourquoi participer ?

Le projet SOCFACE vise à transcrire automatiquement l'intégralité des recensements français numérisés de 1836 à 1936. Ce projet est mené en collaboration avec le SIAF et les archives départementales. Il vient en complément des transcriptions collaboratives déjà effectuées car il vise à transcrire l'intégralités des informations sur les individus. Ces données seront librement accessible à tous.

Pour que la machine puisse transcrire les listes manuscrites, il faut l'entraîner. Ce projet de transcriptions collaborative permettra de générer les données d'entrainement sur les 10 archives départementales pilotes.

Point important : contrairement aux humains, la machine n'aura pas accès au contexte lors de la transcription : elle ne verra qu'une seule ligne. Elle ne pourra pas savoir à quoi se rapporte "idem" ou bien "né dans la commune". Il faut donc transcrire sans interprêter ce qu'il y a sur l'image: "idem" est transcrit "idem".

Par exemple, sur l'image suivante, pour la ligne surlignée en vert:

green_line

Dans le formulaire de saisie, il faudra: * laisser la case du nom vide (ne pas mettre Lanaurie) * mettre idem dans la case de nationalité (ne pas mettre fse)

Un exemple en vidéo:

Comment participer

Pour l'instant, une seule campagne de test est ouverte : les recensements de l'Allier.

1. Se créer un compte

Aller sur callico.teklia.com, créer un compte et se connecter

signup

2. Demander des tâches

Sur l'onglet "Projets publics", demander des tâches sur une campagne d'annotation

  • Project SOCFACE | 03 Allier
  • Projet SOCFACE | 04 Alpes-de-Haute-Provence
  • Projet SOCFACE | 24 Dordogne
  • Projet SOCFACE | 26 Drôme
  • Projet SOCFACE | 27 Eure
  • Projet SOCFACE | 29 Finistère
  • Projet SOCFACE | 43 Haute-Loire
  • Projet SOCFACE | 51 Marne
  • Projet SOCFACE | 63 Puy-de-Dôme
  • Projet SOCFACE | 85 Vendée
  • Projet SOCFACE | Orléans

tasks

3. Lire les consignes

Dans l'onglet "Mes projets", cliquer sur "Mes tâches" dans la campagne "Project SOCFACE|03 Allier"

my_tasks

Lire les instructions et cliquer sur "Annoter" pour commencer la transcription**

instructions

annotate

4. transcrire

Transcrire chaque ligne en suivant les consignes. Quand toutes les informations présentes ont été transcrites, cliquer sur "Annoter".

transcribe

NB : les lignes que vous avez déjà annotées se trouvent dans l'onglet "Annotée" de votre espace "Mes tâches". Vous pouvez les corriger en cliquant sur le bouton "Annoter" en regard de chaque page.

Lorsque vous avez annoté toutes les lignes proposées dans vos tâches, vous pouvez demander de nouvelles tâches en cliquant sur "Demander des tâches".

En cas de problème ou question, contactez-vous avec le drapeau rouge

red_flag

Pour des questions générales sur le projet ou l'inscription, envoyez un mail à contact@socface.org

Plus d'articles sur le projet Socface:

TEKLIA s'implique dans l'open source

Chez TEKLIA, nous sommes très investis dans la communauté open-source, non seulement en tant qu'utilisateurs mais aussi en tant que contributeurs. Pour la reconnaissance d'écriture, nous croyons que la mise à disposition des données, du code et des modèles permettra une adoption par le plus grand nombre :

  • nous publions et maintenons notre code en open source sur Gitlab avec en particulier:
    • Doc-UFCN, une librairie de détection d'objets dans les documents numérisés
    • PyLaia, un librairie de reconnaissance d'écriture manuscrite
    • Nerval, une librairie d'évaluation d'extraction d'entités nommées
  • nous publions nos modèles en accès libre sur HuggingFace