Ocapi – L’annotation de documents patrimoniaux au service de la sécurité numérique

A l’heure où les organisations font face à de plus en plus d' attaques sur leurs systèmes informatiques, la cybersécurité est devenue un enjeu essentiel de la société numérique. Parmi les moyens de protection existants, le captcha est une solution qui permet de s’assurer que l’utilisateur d’un site web est bien un humain et non un robot. La solution la plus utilisée actuellement est reCAPTCHA: développée par Google, elle utilise des images issues des bases de données internes à Google, et ce, afin d’améliorer ses services.

Lauréat du concours « Service Numérique Innovant » organisé par le Ministère de la Culture en 2019, Teklia a développé Ocapi, le premier service de captcha au service de l'indexation des données issues d'institutions patrimoniales et culturelles.

Pourquoi ce nouvel outil ?

Le service de captcha Ocapi (Outil de Captcha et d'Annotation du Patrimoine en Image), développé par Teklia, poursuit un double objectif : celui de sécuriser l’accès aux sites web et d’annoter des documents pour des projets patrimoniaux. Il s'adresse donc à la fois aux sites web soucieux d'assurer leur sécurité avec une solution française, mais aussi aux institutions qui cherchent à faire valider ou indexer le contenu de leurs collections numérisées.

Deux scénario différents pour la validation des données.

Afin de répondre au mieux aux besoins des institutions patrimoniales, Teklia a identifié deux types de scénario pour réaliser une validation des données efficace.

  • La transcription : dans ce scénario, l'utilisateur se voit présentées deux images contenant du texte qu'il doit retranscrire. Ce scénario est notamment utilisé par les Archives Nationales, avec les documents issus de la base de données de la Légion d’honneur.
Captcha de transcription avec Ocapi
Captcha de transcription avec Ocapi
  • La classification d’images : dans ce scénario, l’internaute doit sélectionner des images correspondent à la classe demandée, parmi une sélection de neuf propositions. La société Décalog utilise ce scenario Ocapi pour la classification des illustrés zoologiques fournis par la Bibliothèque Nationale de France.
Captcha de classification avec Ocapi
Captcha de classification avec Ocapi

Pour les utilisateurs malvoyants qui sont dans l’incapacité de répondre à ces deux formulaires, une option audio est disponible. L’utilisateur doit entrer les mots prononcés dans la séquence audio qui est à sa disposition. La réponse attendue pour valider ce formulaire est simplifiée et quelques erreurs sont autorisées. En revanche, ce type de formulaire vise uniquement à vérifier que l’utilisateur n’est pas un robot, il n’a pas vocation à faire de l’annotation de documents.

Un autre type de formulaire a été identifié, c’est celui du référencement, mais celui-ci n’a pas encore été développé. Le Musée de Bretagne a travaillé avec Teklia pour la réalisation d’un tel formulaire dans le but de « tagger » des photographies anciennes, issus de leur collections, en identifiant les éléments qui se trouvent sur l’image parmi une liste thématique.

Mise en place d'Ocapi

La mise en place de la solution Ocapi implique plusieurs parties prenantes, l’institution patrimoniale, Teklia et le site partenaire sur lequel sera utilisé Ocapi : une relation tripartite cruciale pour le bon fonctionnement de cet outil.

L’institution souhaite indexer une collection numérisée de la manière la plus efficace possible. C’est elle qui va fournir le corpus d'images et définir la tâche d’annotation désirée. Teklia va ensuite préparer les données pour les intégrer dans la captcha Ocapi et configurer la campagne d'indexation par captcha.

D'autre part, le site partenaire sollicite Teklia pour mettre en place le service de captcha Ocapi sur leur infrastructure web pour en sécuriser l’accès, permettant par la même occasion de réaliser une validation humaine des données soumises.

Workflow de l'utilisation d'Ocapi
Workflow de l'utilisation d'Ocapi

L’intégration du captcha est très simple et ne nécessite que l’ajout d’un script, d’une balise html, ainsi que d’une clé publique sur l’infrastructure d’accueil. La couleur du formulaire ainsi que le logo peuvent être personnalisés pour se conformer à la charte graphique du site web sur lequel il sera affiché.

Pour plus de détails techniques sur la mise en place du service Ocapi, référez-vous à la documentation : https://docs.ocapi.teklia.com/

Contactez-nous

Vous êtes une institution patrimoniale et vous souhaitez indexer vos collection ?

Vous souhaitez sécuriser votre site web avec une solution de captcha française au service de la culture et du patrimoine ?

Contactez-nous