Il faut quelques clics depuis la page d’accueil pour s’y rendre, mais parmi les nombreuses collections accessibles sur le site web de BAnQ se retrouve Archivage Web, un projet lancé en 2009 qui regroupe désormais les sites web de plus de 1302 organismes. Des sites gouvernementaux, mais aussi ceux d’associations (Action cancer du sein de Montréal), d’événements (100e anniversaire de la ville de La Sarre), des blogues (Vente de garage, le blogue) et plus encore. C’est beaucoup, mais ce n’est aussi que la pointe de l’iceberg de tout ce qui se produit au Québec.
« Faire des choix est l’un des plus gros défis de la collecte web », estime Mireille Laforce, directrice du dépôt légal et des acquisitions à BAnQ. « Plusieurs critères sont évalués par un comité pour faire cette sélection, comme l’intérêt du site pour les usagers et les citoyens, la notoriété du producteur et l’actualité du sujet », explique-t-elle. La qualité de la langue, la complémentarité avec les autres collections de BAnQ, la valeur permanente et le risque qu’un site disparaisse sont d’autres facteurs considérés pour qu’il soit sélectionné. Mireille Laforce et son équipe se donnent comme objectif d’archiver environ 500 sites par année, en plus des sites gouvernementaux.

Au lancement du projet, en 2009, seuls les sites gouvernementaux étaient collectés. Il s’agissait pour l’institution de poursuivre le travail d’archivage des documents numériques de types PDF qui avait été amorcé au début des années 2000. BAnQ n’est pas tenu légalement d’effectuer ces collectes, puisque la Loi sur Bibliothèque et Archives Nationales du Québec n’a pas été mise à jour pour s’adapter à la réalité numérique. L’institution perçoit néanmoins le web et ces documents gouvernementaux comme une continuité de l’esprit du dépôt légal.
« Nous avons ensuite commencé à effectuer des collectes thématiques sur des sujets précis, comme les élections », note Mireille Laforce. Ce n’est que récemment que des sites web plus généraux ont été ajoutés à la collection.
Alors que les institutions envoient habituellement leurs documents à BAnQ, l’archivage web fonctionne différemment. Ici, c’est plutôt Bibliothèque et Archives nationales du Québec qui s’occupe d’amasser les données, à l’aide d’un logiciel informatique ouvert, le robot collectionneur Heritrix. Les logiciels du genre amassent automatiquement une copie d’un site, et peuvent être programmés pour faire leur collecte plus ou moins profondément dans l’arborescence. Le robot est une création d’Internet Archive, un organisme américain qui archive le web depuis 1996. Le format ouvert dans lequel les sites québécois sont sauvegardés est aussi celui d’Internet Archive. Les deux sites partagent d’ailleurs une interface commune.

À ce jour, BAnQ a amassé près de 150 millions de document, qui occupent 31 téraoctets d’espace. Ceux-ci peuvent être intéressants pour les journalistes et les curieux, mais ils sont avant tout conservés dans une optique de pérennité. « Si nous sommes réguliers dans notre collecte, le corpus va gagner de l’intérêt avec le temps pour les chercheurs de demain », croit la Mireille Laforce.
Un protocole est d’ailleurs en place pour assurer la conservation à long terme des documents numériques. « C’est plus complexe que la préservation sur papier, car on ne peut pas seulement mettre les disques durs dans une réserve à température contrôlée. Il faut prévoir des migrations et s’assurer de l’intégrité des données. Le numérique est très fragile », note-t-elle.
Le contenu web préservé est aussi plus grand que celui qui est présenté en ligne. « Nous respectons la loi canadienne sur le droit d’auteur, nous devons donc obtenir une licence pour diffuser les sites que nous avons collectés », note la directrice. L’institution n’a pas besoin de licence pour obtenir et archiver le contenu, ce qu’elle fait parfois même si elle n’a pas la permission de le diffuser. Malheureusement, les refus sont quand même nombreux. « Plusieurs sont frileux car ils n’ont eux-mêmes pas toujours les droits pour rediffuser les images », se désole-t-elle. Certains producteurs permettent tout de même à BAnQ de diffuser leurs archives, mais uniquement à la bibliothèque.
Notons que ce compromis est d’ailleurs courant dans plusieurs autres pays où les bibliothèques nationales archivent les sites web locaux, comme en France et au Royaume-Uni. La British Library effectue par exemple une collecte exhaustive du web britannique, mais celle-ci est accessible uniquement sur place. Une sélection de sites est aussi diffusée sur Internet lorsque l’autorisation leur est accordée.
Une collecte de tous les sites web québécois serait idéale, concède Mireille Laforce, car on ne sait pas toujours ce qui intéressera les chercheurs du futur. Un tel archivage n’est toutefois pas réaliste pour l’instant.
« Une partie de la collecte est automatisée, mais il y a aussi beaucoup de travail manuel à faire », explique-t-elle. Son équipe doit par exemple déterminer à quel niveau de profondeur les sites sélectionnés seront sauvegardés (dans leur entièreté ou seulement en surface), et elle doit réviser le travail effectué par les robots, qui peuvent se perdre dans des boucles et collecter à répétition les mêmes documents, par exemple.
« En plus, les robots ne fonctionnent pas avec tous les sites, surtout les plus modernes. Le web évolue constamment, il faut donc adapter nos outils. Par définition, nous sommes toujours un peu en arrière », poursuit-elle.
À l’exception des 300 000 $ de financement reçus depuis deux ans pour moderniser ses logiciels, BAnQ effectue cet archivage à même son budget, avec un personnel qui doit déjà assurer le fonctionnement de l’institution. « C’est une activité qui s’ajoute à celles qu’on a déjà; nous n’avons pas de nouvelles ressources pour l’archivage », confirme-t-elle.
L’importance de l’activité ne fait pourtant aucun doute. Le web occupe une place toujours plus grande dans la société québécoise. Sa préservation est essentielle à la survie de notre patrimoine documentaire.