Pourquoi participer ?
Le projet SOCFACE vise à transcrire automatiquement l'intégralité des recensements français numérisés de 1836 à 1936. Ce projet est mené en collaboration avec le SIAF et les archives départementales. Il vient en complément des transcriptions collaboratives déjà effectuées car il vise à transcrire l'intégralités des informations sur les individus. Ces données seront librement accessible à tous.
Pour que la machine puisse transcrire les listes manuscrites, il faut l'entraîner. Ce projet de transcriptions collaborative permettra de générer les données d'entrainement sur les 10 archives départementales pilotes.
Point important : contrairement aux humains, la machine n'aura pas accès au contexte lors de la transcription : elle ne verra qu'une seule ligne. Elle ne pourra pas savoir à quoi se rapporte "idem" ou bien "né dans la commune". Il faut donc transcrire sans interprêter ce qu'il y a sur l'image: "idem" est transcrit "idem".
Par exemple, sur l'image suivante, pour la ligne surlignée en vert:
Dans le formulaire de saisie, il faudra: * laisser la case du nom vide (ne pas mettre Lanaurie) * mettre idem dans la case de nationalité (ne pas mettre fse)
Un exemple en vidéo:
Comment participer
Pour l'instant, une seule campagne de test est ouverte : les recensements de l'Allier.
1. Se créer un compte
Aller sur callico.teklia.com, créer un compte et se connecter
2. Demander des tâches
Sur l'onglet "Projets publics", demander des tâches sur une campagne d'annotation
- Project SOCFACE | 03 Allier
- Projet SOCFACE | 04 Alpes-de-Haute-Provence
- Projet SOCFACE | 24 Dordogne
- Projet SOCFACE | 26 Drôme
- Projet SOCFACE | 27 Eure
- Projet SOCFACE | 29 Finistère
- Projet SOCFACE | 43 Haute-Loire
- Projet SOCFACE | 51 Marne
- Projet SOCFACE | 63 Puy-de-Dôme
- Projet SOCFACE | 85 Vendée
- Projet SOCFACE | Orléans
3. Lire les consignes
Dans l'onglet "Mes projets", cliquer sur "Mes tâches" dans la campagne "Project SOCFACE|03 Allier"
Lire les instructions et cliquer sur "Annoter" pour commencer la transcription**
4. transcrire
Transcrire chaque ligne en suivant les consignes. Quand toutes les informations présentes ont été transcrites, cliquer sur "Annoter".
NB : les lignes que vous avez déjà annotées se trouvent dans l'onglet "Annotée" de votre espace "Mes tâches". Vous pouvez les corriger en cliquant sur le bouton "Annoter" en regard de chaque page.
Lorsque vous avez annoté toutes les lignes proposées dans vos tâches, vous pouvez demander de nouvelles tâches en cliquant sur "Demander des tâches".
En cas de problème ou question, contactez-vous avec le drapeau rouge
Pour des questions générales sur le projet ou l'inscription, envoyez un mail à contact@socface.org
Plus d'articles sur le projet Socface:
- Automatic recognition of 100 years of French Census: the SOCFACE project
- Point d'étape du projet Socface
TEKLIA s'implique dans l'open source
Chez TEKLIA, nous sommes très investis dans la communauté open-source, non seulement en tant qu'utilisateurs mais aussi en tant que contributeurs. Pour la reconnaissance d'écriture, nous croyons que la mise à disposition des données, du code et des modèles permettra une adoption par le plus grand nombre :
- nous publions et maintenons notre code en open source sur Gitlab avec en particulier:
- nous publions nos modèles en accès libre sur HuggingFace