La BNF lance la correction collaborative de Gallica, grâce à la plateforme Correct

Partager :
Temps de lecture : 4 min

La plateforme Correct (Correction et Enrichissement Collaboratifs de Textes) est disponible en béta test depuis le 1er décembre 2014 à l’adresse suivante http://www.reseau-correct.fr. Le crowdsourcing se met ainsi désormais au service de la valorisation du fonds patrimonial de France. 

Cette plateforme expérimentale est issue d’un projet de recherche qui réunit 9 partenaires, depuis 2012 : Orange (pilote du projet), BnF, Jamespot, Urbilog, I2S, ISEP, INSA de Lyon, Université Lyon 1, Université Paris 8.

Page d'accueil du réseau social Correct

L’objectif de ce projet est d’expérimenter la correction collaborative des documents numérisés provenant de Gallica.

Comme l’explique Isabelle Jousse, chef du projet Correct à la BnF, au département de la conservation, numérisation et OCR, “la plateforme a pour double ambition de faciliter la correction et de faciliter la collaboration. Pour cela elle met à disposition des utilisateurs des outils intuitifs permettant de corriger facilement les documents et s’appuie sur un réseau social dédié pour favoriser l’entraide et soutenir l’organisation de la collaboration au sein de petits groupes de correction.”

Mode ligne à ligne de l'éditeur de correction

Lors de leur numérisation, les documents sont traités par des systèmes de reconnaissance optique de caractères (OCR) mais ceux-ci ne sont pas encore fiables à 100%. Il faut donc faire appel à des êtres humains pour détecter, analyser et corriger les erreurs restantes.

Les documents ainsi améliorés seront réintégrés dans Gallica à la fin du projet, offrant ainsi une meilleure indexation des documents et une meilleure qualité de leur mode texte.

Durant l’expérimentation, une étude d’usage de la plateforme sera réalisée pour permettre d’évaluer la plateforme expérimentale, d’explorer les attentes des utilisateurs et de mesurer comment les pratiques communautaires et collaboratives peuvent s’intégrer dans l’écosystème de Gallica. L’outil, qui se présente comme un réseau rassemblant les intéressés, est accessible à tous, pour que les utilisateurs s’emparent des documents de Gallica.

57 premiers documents à corriger

Pour le lancement de la plateforme, en phase bêta jusqu’en juin 2015, 57 documents en provenance de Gallica sont désormais accessibles par les utilisateurs, et qui peuvent être corrigés. Différentes collections ont été créées, pour inviter les premiers inscrits à choisir des documents en fonction de leurs centres d’intérêt : roman d’anticipation, contes d’ici et d’ailleurs, cuisine et gastronomie… Pour le moment, les documents mis en ligne sont postérieurs à 1800 et la phase de test s’articule autour de thématiques fortes et accessibles. Ainsi, les sciences occultes ont été choisies, car elles font partie des catégories les plus consultées et téléchargées sur Gallica.

La correction participative de manuscrits est un outil utilisé par nombre d’institutions, à travers le monde : la bibliothèque nationale d’Australie a mis en place une initiative semblable, tout comme l’université de l’Iowa, depuis 2011.

Le précédent Wiki

La mise en ligne de Correct, après 2 années de développement impliquant Jamespot, Urbilog, i2S, ISEP, l’INSA de Lyon, l’Université Lyon 1 et l’Université Paris 8, vient “renforcer la politique de numérisation et de valorisation de la Bibliothèque nationale de France”, explique Arnaud Beaufort, directeur général adjoint de la BnF.

La BnF avait déjà sollicité l’outil Wikisource, en avril 2010, pour l’aider à corriger l’OCR de 1 400 textes, mais le réseau Correct va plus loin : un bouton de correction sera directement intégré à Gallica, dans les prochains mois, qui reverra l’usager sur Correct. À terme, ce sont donc tous les documents de Gallica, soit 3 millions de pages, qui seront concernés par l’outil. De plus, Orange Labs, service de recherche et développement du groupe de télécommunications, ont travaillé à un algorithme pour améliorer les documents ALTO de la BnF.

L’enjeu de cet outil est majeur, notamment en terme d’accessibilité, via le moteur de recherche de Gallica ou d’autres, comme Google, mais aussi pour les chercheurs qui utilisent ces documents comme référence.

La grande initiative de Correct réside dans son statut de réseau :

«Tout l’enjeu est dans cette notion de réseau, qui permet à tous de corriger et de partager les documents avec d’autres personnes. Sur la plateforme de la Bibliothèque nationale d’Australie, le correcteur volontaire est seul, et nous prenons le pari que les communautés et les centres d’intérêt vont motiver la correction» souligne Isabelle Josse. L’autre innovation centrale de la plateforme Correct repose sur la propagation des corrections, et la méthode de vérification adoptée. «Chaque utilisateur de la plateforme travaille sur une épreuve du texte choisi qui lui est propre, et sur lequel il ne voit que ses corrections. Pour vérifier les apports, l’algorithme d’Orange compare ses épreuves et les confronte pour la validation, avant de faire remonter les conflits autour des mots concernés», explique Isabelle Josse.

 Témoins de la Grande Guerre : une nouvelle collection sur Correct

15 jours après son lancement, plus de 250 personnes se sont inscrites, et 6 groupes de correction, selon les centres d’intérêt, ont été créés. Les correcteurs ont déjà corrigé plus de 1 400 pages soit plus de 350 000 mots

Le 10 décembre 2014, le réseau Correct a mis à disposition des correcteurs une nouvelle collection, rassemblant des témoignages autour de la Grande Guerre.

Les récits présentés dans la collection « Témoins de la Grande Guerre » rassemblent  des souvenirs et impressions émouvants de poilus issus de différents régiments. Dans un premier temps, 6 ouvrages sont proposés aux Correcteurs. De nouveaux documents complèteront progressivement cette collection.

Editeur de correction de Correct

Pour corriger ces documents, créer des groupes de correction ou y adhérer, les correcteurs amateurs ont rendez-vous sur le réseau Correct !

SOURCES: BNF

Date de première publication: 11/12/2014

Clic-separateur(A LIRE SUR LE SITE DU CLIC) (3)

Des bénévoles numérisent les collections de dessins du Lynn Museum

La Tate invite la communauté Minecraft à réinterpréter ses chefs d’oeuvres

Le Muséum lance sa première opération de sciences participatives associant jeu et observation sur smartphone

L’Imperial War Museum de Duxford lance un site de crowdsourcing pour mieux connaitre l’histoire de la seconde guerre mondiale

La Smithsonian Institution mobilise les bénévoles pour son projet de numérisation massive

Le National Museum History London lance une application mobile de crowdsourcing végétal

Le musée du mémorial du 11 septembre lance un recueil en ligne de témoignages des survivants et sauveteurs

banner clic sitem 2024 V1

Laisser un commentaire