Héritière de la bibliothèque de l’abbaye Sainte-Geneviève, la Bibliothèque Sainte-Geneviève (BSG) est une des principales bibliothèques universitaires françaises.
La BSG a fait appel à Teklia pour un projet visant à extraire automatiquement des informations à partir d’un fichier matière et d’un catalogue imprimé, tous les deux disponibles sous forme d’images uniquement.
L’objectif était de compléter le catalogue numérique de la bibliothèque avec les informations d’indexation contenues dans ces deux outils imprimés.
Cette action de rétro conversion s’inscrit dans un vaste projet de recensement par disciplines du fonds de la bibliothèque, riche de plus de deux millions d’ouvrages.
Traitement du fichier matière
Le fichier matière est constitué de 550 000 fiches cartonnées, déjà numérisées et donc disponibles sous forme d’images.
Ces fiches permettaient l’accès thématique aux ouvrages grâce aux informations suivantes: titre, nom de l’auteur, thème, référence bibliographique, description et cote.
Le traitement de ces fiches a commencé par une première étape de reconnaissance automatique de texte (ATR, Automatic Text Recognition), permettant la transcription à la fois du texte dactylographié et du texte manuscrit.
Dans un deuxième temps, Callico a été utilisé pour produire des annotations afin de constituer un corpus d’entrainement d’un système d’extraction d’entités nommées pour identifier les matières et les cotes.
Une fois le système entrainé, les 550 000 fiches ont été traitées pour extraire leur cote et la matière associée (N2).
Si l’intelligence artificielle permet, par l’intermédiaire de l’ATR et d’un modèle d’extraction d’entités nommées, de traiter en masse des documents, il reste toujours des erreurs et des cas particuliers à traiter manuellement.
Dans le cas du traitement du fichier matière, même si le taux d’erreur de la transcription automatique était faible, certains caractères, nécessaires à l’identification des cotes comme des lettres grecques ou des lettres en exposant, étaient mal reconnus.
TEKLIA a donc mis en place des règles, en collaboration avec les bibliothécaires, pour “repêcher” un certain nombre de cotes mal reconnues et pour lesquelles aucune équivalence n’était trouvée en base de données. Le cas des ouvrages en plusieurs volumes ou sortis du fond a dû aussi être traité.
Résultat
In fine, sur les 550 000 fiches, plus de 85% ont pu être traitées entièrement automatiquement. Sur les 15% restants, certaines fiches ont été volontairements exclues (pages de titres, doublons de fiches, documents pilonnés), d’autres n’ont pu être traitées en raison du format des données (séries de plus de 5 volumes, fiches contenant plusieurs cotes, fiches manuscrites parfois illisibles, etc.) et d’autres encore n’ont pu être traitées en raison d’erreurs d’OCR.
Traitement du catalogue Poirée-Lamouroux
Le Catalogue abrégé de la Bibliothèque Ste-Geneviève, établi par Elie Poirée et Georges Lamouroux à la fin du XIXème siècle, recense par disciplines la majorité des ouvrages de la bibliothèque à cette époque.
Les 3 volumes de l’ouvrage sont organisés en sections délimitées par des titres et des sous-sections indiquées par des numéros.
Une table de correspondance permet d’associer à chaque numéro de sous-section une sous-matière. Sur l’illustration suivante, la sous-section 37 de la section Science est présentée.
TEKLIA a développé un système d’analyse de la structure en section et sous-section afin d’associer chaque cote détectée avec la sous-section thématique correspondante. Le traitement complet est détaillé, étape par étape, sur un extrait de la page précédente.
La première étape du traitement est la reconnaissance du texte. Il nous faut à la fois détecter la position des lignes et réaliser la transcription via un algorithme d’ATR. Sur l’exemple, les lignes détectées sont encadrées en vert.
ROCAFORT (Jacques). L'éducation morale
au lycée. 1899. [R. 8º Sup. 4040.]
SAMSON (Mme Jules). Une éducation dans
la famille ... 3e éd. S. d. [R. 8º Sup. 3598.]
Le catalogue est organisé en sections, qui regroupent les notices traitant d’une thématique commune. C’est une information nécessaire pour les experts et il a d’abord fallu regrouper les lignes détectées par section.
Une section peut s’étendre sur plusieurs pages consécutives d’un même volume. Le texte de chaque section a été reconstruit en concaténant le texte des lignes la composant.
Une fois ces sections annotées sur Arkindex, les experts ont pu les numéroter manuellement, à l’aide d’un identifiant interne. Tandis que la première section (haut de la page), correspond aux Sciences de l'éducation
, la seconde (bas de la page) correspond à la Philosophie des sciences
.
Après annotation dans Callico des cotes sur un petit échantillon de pages, un entraînement a été réalisé pour la détection de ces références. Ce modèle a été appliqué sur toutes les sections des volumes.
La dernière étape a consisté à établir la correspondance entre les cotes détectées et celles de la base de données de la bibliothèque.
Pour cela, nous avons utilisé des informations supplémentaires présentes dans l’ouvrage référencé. En effet, l’auteur, l’intitulé de l’ouvrage ainsi que la date de publication améliorent grandement, lorsqu’ils sont présents, la précision de la correspondance.
En revanche, les abréviations et formulations utilisées peuvent différer entre la base et l’ouvrage.
L’image suivante détaille le découpage du texte avec ces différentes parties.
Sur l’exemple, on peut ainsi faire la correspondance avec:
- Le livre dont la cote est
8 R SUP 4040
, écrit parRocafort
en1899
et qui s’intituleL'éducation morale au lycée
- Le livre dont la cote est
8 R SUP 3598
, écrit parSamson
en1893
et qui s’intituleUne éducation dans la famille, conseils pratiques d'une mère
Résultat
In fine, sur les 5869 pages du catalogues, 29 497 cotes ont été automatiquement extraites et identifiées dans le catalogue numérique.
Une réduction des coûts importante
Les modèles de TEKLIA ont permis d’automatiser le traitement du fichier matière et du catalogue à plus de 90%. Si la validation manuelle reste nécessaire, l’effort humain est cependant considérablement réduit, avec un impact majeur sur le coût de la rétro conversion.
Timothée RONY, Département de la Politique documentaire, Bibliothèque Sainte-Geneviève
"Le recours à l’IA nous a permis de traiter une masse considérable de données (550 000 fiches du fichier matière et presque 6 000 pages du catalogue imprimé). Il aurait été inenvisageable pour nous de recourir à un traitement manuel et nous étions à la recherche d’un prestataire à même de nous aider dans ce projet de rétro conversion, dont l’objectif était double : enrichir les notices de notre catalogue en ligne avec des données d’indexation très précieuses mais jusque-là difficilement exploitables puisque interrogeables uniquement sous forme imprimée ; nous accompagner dans notre projet d’évaluation et de cartographie de nos collections, en automatisant en partie les opérations de comptage. De notre point de vue, les objectifs initiaux sont pleinement remplis. Malgré un format de données très hétéroclite, des difficultés liées à la complexité de notre système de cotation et d’indexation et l’expression parfois tardive de nouveaux besoins en fonction de l’avancée de nos tests, Teklia s’est toujours montré très disponible et enclin à faire évoluer la méthode de travail, en fonction des difficultés et problèmes qui se faisaient jour. À ce titre, nous sommes pleinement satisfaits de notre collaboration avec les équipes de Teklia."
N’hésitez pas à nous contacter via notre formulaire de contact pour mettre en place un projet similaire dans votre institution.
Crédits Photo:
- Bibliothèque Sainte Geneviève - www.bsg.univ-paris3.fr/iguana/www.main.cls.