Transcrire l'histoire, un document à la fois
Techno

Transcrire l’histoire, un document à la fois

Le nouvel outil Co-Lab de Bibliothèque et Archives Canada permet aux amateurs d’histoire de transcrire, de traduire et d’étiqueter les documents contenus dans sa vaste collection. 

Lettres d’amour, contrats légaux, journaux intimes, photographies : Bibliothèque et Archives Canada (BAC) possède des millions de documents qui dorment dans sa réserve et sur ses disques durs. Un nouvel effort de production participative pourrait enfin les rendre accessibles aux outils de recherche modernes.

« Chère bonne Zoé, depuis que je suis parti de Montréal je ne fais que penser à toi. Les derniers jours que j’ai passés avec toi ne s’effaceront jamais de ma mémoire », écrit en 1867 un jeune Wilfrid Laurier à sa future femme, Zoé Lafontaine. Bibliothèque et Archives Canada offre en ligne des dizaines de pages de lettres d’amour rédigées par l’ancien premier ministre. Des lettres qui étaient jusqu’ici consultables en images, mais dont le texte ne pouvait être recherché ou rapidement décrypté. La mise en ligne de l’outil Co-Lab le mois dernier a finalement corrigé ce problème.

La plateforme rappelle Wikipédia, qui vit grâce aux efforts d’internautes dévoués. Au lieu d’écrire des articles comme dans l’encyclopédie en ligne, on y transcrit toutefois des documents historiques existants, on les traduit en français ou en anglais, et on y ajoute des mots-clés et des descriptions, qui permettront de mieux les trouver par la suite.

L’intérêt de l’outil va au-delà du hobby. « Beaucoup de chercheurs utilisent nos documents et font eux-mêmes des transcriptions et de la catégorisation. Souvent, ce travail est perdu à la fin de leurs travaux. Maintenant, le contenu va être réutilisable par d’autres chercheurs dans le même domaine », souligne Alexandra Haggert, responsable de Co-Lab.

Des centaines de milliers de documents numérisés et déjà accessibles en ligne peuvent être traités de la sorte par les internautes.

Naviguer dans les archives est un exercice fascinant. En quelques minutes, on tombe par hasard sur une lettre envoyée par Leonard Cohen à des éditeurs, où le poète — qui n’avait pas encore entrepris sa carrière de musicien — discute de ses problèmes financiers, des difficultés de communiquer par télégramme et de son futur recueil de poésie Opium and Hitler (qui sera finalement publié un an plus tard sous le titre Flowers for Hitler).

Comment participer ?

Ceux qui ont envie de transcrire des documents historiques peuvent aller consulter la page Co-Lab de BAC. Plusieurs collections sont rassemblées sous forme de défis, qui encadrent un peu le travail effectué. « Nous choisissons des thèmes en fonction de l’intérêt des gens, mais nous pouvons aussi en créer selon les commémorations à venir ou les événements d’actualité », explique Alexandra Haggert.

En ce moment, les internautes peuvent ainsi transcrire un journal de voyage en Arctique de Rosemary Gilliat (Eaton) et des lettres du XVIIIe siècle envoyées au roi de France et au gouverneur général de la Nouvelle-France par des autochtones.

La marche à suivre est simple, et bien expliquée dans un tutoriel. Le document s’affiche dans une image à gauche de l’écran, et des boîtes de texte à droite permettent d’écrire sa transcription, sa traduction, son étiquetage ou sa description. Lors de chaque étape, il est aussi possible d’indiquer si le travail est terminé, en cours ou si une révision est nécessaire.

Ce ne sont pas uniquement les sujets proposés par BAC qui peuvent être traités. Tous les documents numérisés et publiés en ligne, que l’on trouve en utilisant l’outil Recherche dans la collection (bêta), peuvent être analysés.

Notons que l’outil de travail collaboratif dans sa première version est simple. Il est ainsi impossible d’avoir accès à toutes les révisions effectuées par les internautes précédents, comme sur Wikipédia, ou de lancer un dialogue, par exemple. BAC conserve tout de même une copie de chaque révision, pour éviter les accidents et le vandalisme numérique.

En attendant l’automatisation

L’envergure de cette initiative rappelle d’une certaine manière la publication récente de la collection photographique du magazine Life par Google. Tandis qu’un algorithme de reconnaissance d’images avait alors été utilisé pour classer automatiquement les clichés, Co-Lab mise sur la participation du public et demande un effort manuel considérable.

« Nous avons exploré un peu l’utilisation d’intelligence artificielle et de reconnaissance optique de caractères, mais le résultat n’était pas parfait, surtout pour les documents manuscrits », note Alexandra Haggert.

La technologie pourra évidemment faciliter le travail des archivistes à mesure qu’elle s’améliorera et qu’elle sera plus aisément accessible. Une aide qui ne sera pas de refus, puisque la collection totale de BAC, dont une fraction seulement a été numérisée, rassemble pas moins de 20 millions de publications, 250 kilomètres de documents textuels, 3 millions de cartes, de plans et de dessins architecturaux et 24 millions de photos.