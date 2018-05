Lettres d’amour, contrats légaux, journaux intimes, photographies : Bibliothèque et Archives Canada possède des millions de documents qui dorment dans ses voûtes et ses disques durs. Un nouvel effort de production participative pourrait finalement les rendre accessibles aux outils de recherche modernes.

« Chère bonne Zoé, depuis que je suis parti de Montréal je ne fais que penser à toi. Les derniers jours que j’ai passés avec toi ne s’effaceront jamais de ma mémoire », écrit en 1867 un jeune Wilfrid Laurier à sa future femme Zoé Lafontaine. Bibliothèque et Archives Canada (BAC) offre en ligne des dizaines de pages de lettres d’amour rédigées par l’ancien premier ministre. Des lettres qui étaient jusqu’ici consultables en image, mais dont le texte ne pouvait être recherché ou rapidement décrypté. La mise en ligne de l’outil Co-Lab le mois dernier a finalement corrigé ce problème.

La plateforme rappelle Wikipedia, qui vit grâce aux efforts d’Internautes dévoués. Au lieu d’écrire des articles comme dans l’encyclopédie en ligne, on y transcrit toutefois le contenu de documents historiques existants, on les traduit en français ou en anglais et on y ajoute des mots-clés et des descriptions, qui permettront de mieux les retrouver par la suite.

L’intérêt de l’outil va au-delà du hobby. « Beaucoup de chercheurs utilisent nos documents et font eux-mêmes des transcriptions et de la catégorisation. Souvent, ce travail est perdu à la fin de leurs travaux. Maintenant, le contenu va être réutilisable par d’autres chercheurs dans le même domaine », souligne Alexandra Haggert, responsable du projet chez BAC.

Des centaines de milliers de documents numérisés et déjà accessibles en ligne peuvent être traités de la sorte par les Internautes.

Naviguer dans les archives est un exercice fascinant. En quelques minutes, on tombe par hasard sur une lettre envoyée par Leonard Cohen à des éditeurs, où le poète – qui n’avait pas encore débuté sa carrière de musicien – discute de ses problèmes financiers, des difficultés de communiquer par télégramme et de son futur recueil de poésie Opium and Hitler (qui sera finalement publié un an plus tard sous le nom Flowers for Hitler).

Comment participer?

Ceux qui ont envie de transcrire des documents historiques peuvent se diriger sur la page Co-Lab de BAC. Plusieurs collections sont rassemblées sous formes de défis, qui encadrent un peu le travail effectué. « Nous choisissons des thèmes en fonction de l’intérêt des gens, mais nous pouvons aussi en créer selon les commémorations à venir ou les événements d’actualité », explique Alexandra Haggert.

En ce moment, les Internautes peuvent ainsi transcrire un journal de voyage en Arctique de Rosemary Gilliat (Eaton) et des lettres du 18e siècle envoyées au roi de France et au gouverneur général de la Nouvelle-France par des autochtones.

La marche à suivre est simple, et bien expliquée dans un tutoriel proposé lors de notre première visite. Le document s’affiche dans une image à gauche de l’écran, et des boîtes de texte à droite permettent d’écrire sa transcription, sa traduction, son étiquetage et sa description. À chaque étape, il est aussi possible d’indiquer si le travail est complété, en cours ou si une révision est nécessaire.

Ce ne sont pas uniquement les sujets proposés par BAC qui peuvent être traités. Tous les documents numérisés et publiés en ligne, que l’on retrouve en utilisant l’outil Recherche dans la collection (bêta), peuvent être analysés.

Notons que l’outil de travail collaboratif dans sa première version est simple. Il n’est ainsi pas possible d’avoir accès à toutes les révisions effectuées par les Internautes précédents comme sur Wikipedia ou d’initier un dialogue, par exemple. BAC conserve tout de même une copie de chaque révision, pour éviter les accidents et le vandalisme numérique.

En attendant l’automatisation

L’envergure du projet rappelle un peu la publication récente de la collection photographique du magazine Life par Google. Alors qu’un algorithme de reconnaissance d’images avait alors été utilisé pour classer automatiquement les clichés, Co-Lab mise sur la participation du public et demande un effort manuel considérable.

« Nous avons exploré un peu l’utilisation d’intelligence artificielle et de reconnaissance optique de caractères, mais le résultat n’était pas parfait, surtout pour les documents manuscrits », note Alexandra Haggert.

La technologie pourra évidement faciliter le travail des archivistes à mesure qu’elle s’améliorera et qu’elle sera plus facilement accessible. Une aide qui ne sera pas de refus, puisque la collection totale de BAC, dont une fraction seulement a été numérisée, rassemble pas moins de 20 millions de publications, 250 kilomètres de documents textuels, 3 millions de cartes, de plans et de dessins architecturaux et de 24 millions de photos.