Qu'ils soient historiques ou modernes, imprimés ou manuscrits, les documents constituent un ensemble précieux d'informations souvent difficilement accessible dans leur forme originale. La transformation de ces documents en documents digitaux est désormais possible grâce à l'extraction automatique de leurs contenus. Celle-ci nécessite la détection de différents éléments tels que les lignes de texte, éléments cruciaux afin d'obtenir la transcription du texte présent dans les images.
Dans cette thèse, nous étudions différentes tâches liées à l'analyse de la mise en page de documents telles que la détection de lignes de texte, du support d'écriture, ou encore la séparation en actes. Nous proposons deux modèles fondés sur des réseaux de neurones profonds suivant deux approches différentes. Notre objectif est de proposer des modèles permettant de détecter les objets en tenant compte des difficultés liées au traitement de documents, notamment le nombre restreint de données d'entraînement disponibles. De plus, les systèmes existants peuvent présenter des temps de traitement longs qui peuvent entraîner des coûts financiers importants et des impacts écologiques négatifs. Dans un cadre industriel, l'utilisation de tels systèmes ne semble pas appropriée, il est donc nécessaire de proposer des modèles plus parcimonieux en termes de nombre de paramètres afin d'obtenir des temps d'entraînement et d'inférence plus réduits.
Dans cette optique, nous proposons un modèle de détection niveau pixel et un second modèle de détection niveau objet. Nous commençons par proposer un modèle de détection comportant peu de paramètres, rapide en prédiction, et qui permet d'obtenir des masques de prédiction précis à partir d'un nombre réduit de données d'apprentissage. Le pré-entraînement de ce modèle sur différents jeux de données annotés a permis d'obtenir des gains significatifs de performances. Ces résultats nous ont donc conduits à mettre en place une stratégie de collecte et d'uniformisation de jeux de données, utilisés afin d'entraîner un modèle unique de détection de lignes démontrant de grandes capacités de généralisation à des documents hors échantillon.
Nous proposons également un modèle de détection à base de Transformers. La conception d'un tel modèle a nécessité de redéfinir la tâche de détection d'objets dans les images de documents. Suite à cette étude, nous proposons une stratégie de détection d'objets consistant à prédire séquentiellement les coordonnées des rectangles englobant les objets grâce à une classification pixel. Cette stratégie permet d'obtenir un modèle comportant peu de paramètres et rapide en inférence. Les expériences de détection de lignes de texte montrent des bonnes performances.
Enfin, dans un cadre industriel, de nouvelles données non annotées sont souvent disponibles. Ainsi, dans le cas de l'adaptation d'un modèle à ces nouvelles données, on s'attend à fournir au système le minimum de nouveaux exemples annotés. Le choix des exemples pertinents pour l'annotation manuelle est donc crucial pour permettre une adaptation réussie. Il est donc nécessaire que les systèmes effectuent la tâche finale tout en évaluant automatiquement leur confiance quant à leurs décisions. Ainsi, les décisions moins confiantes peuvent être annotées manuellement, tandis que les décisions plus confiantes sont conservées telles quelles pour fournir une annotation automatique.
À cet égard, nous proposons des estimateurs de confiance pour la détection d'objets. La première approche est inspirée de la méthode de Monte Carlo et consiste à construire des estimations de confiance en utilisant la méthode du dropout au moment du test. Notre seconde proposition consiste à construire un système dédié indépendant, entraîné à prédire une estimation de confiance depuis une seule prédiction pendant l'inférence. Nous montrons que ces estimateurs permettent de réduire fortement la quantité de données annotées tout en optimisant les performances.