Archives de l'État en Belgique

Notre mémoire à tous !

Menu

Transkribus : reconnaître, transcrire et dépouiller des documents à l’aide de l’intelligence artificielle

Texte petit  Texte normal  Texte grand
02/12/2022 - Recherche - Événements - Archives générales du Royaume

Ce 16 novembre 2022, Klaas Van Gelder et Gert Gielis ont organisé aux Archives générales du Royaume un atelier sur le logiciel HTR de Transkribus. HTR est l’abréviation de "Handwritten text recognition", soit la reconnaissance automatique de textes manuscrits à l’aide de l’intelligence artificielle et de l’apprentissage automatique par la machine. Ces dernières années, cette technologie a le vent en poupe dans le secteur archivistique à l'étranger. Transkribus offre de nombreuses possibilités qui peuvent encore être élargies. Grâce à cette technologie, plusieurs projets ont donné lieu à des résultats satisfaisants. Les Archives de l’État ont donc souhaité en savoir un peu plus...

Deux chercheurs, l'un des archives de la ville d’Amsterdam et l'autre des Archives nationales de Finlande, sont venus témoigner du succès de l'utilisation du logiciel Transkribus dans leurs projets respectifs Alle Amsterdamse Akten et Making a Modern Archive. Annemieke Romein (Huygens ING Amsterdam) a ensuite présenté la plateforme Transkribus. Outre la reconnaissance de texte  (HTR et OCR (reconnaissance optique de caractères)), la plateforme permet de scanner rapidement des documents, de les transcrire, d’analyser la mise en page, de produire des modèles de reconnaissance de texte et d’étiqueter des catégories de mots.  Le travail peut s'effectuer individuellement ou en équipe. S’il est suffisamment « entraîné » avec des transcriptions de haute qualité, le logiciel est capable de transformer les documents en un texte dans lequel on peut mener des recherches.

Transkribus n’est toutefois pas la solution miracle : l’application ne peut pas encore relever tous les défis complexes présentés par les documents d’archives, mais des avancées importantes ont déjà été réalisées. Cependant, il faut toujours effectuer une analyse manuelle des documents afin de procéder à une vérification, pour en déterminer le contexte (matériel) et pour l'interprétation. Pour les archivistes, Transkribus représente un outil très intéressant pour ouvrir les fonds d’archives à la recherche. Les chercheurs, quant à eux, pourront s’en servir pour collecter des données. Bref, Transkribus permettra d’énormes gains de temps.

Transkribus est déjà utilisé dans le cadre des projets PARDONS et ACCESS. Des bénévoles réalisent des transcriptions pour former un modèle pour l’ouverture à la recherche des lettres de grâce et des registres de sentences.  

L’atelier était très instructif et les Archives de l'État examineront davantage dans quelle mesure Transkribus pourrait être utile. À suivre en 2023 !

www.belspo.be www.belgium.be e-Procurement