Clavier prédictif pour les téléphones intelligents, logiciel pour enseigner la conjugaison de verbes, systèmes de traduction automatique, services de transcription de documents audio en syllabes pour permettre la recherche par mots-clés : les outils élaborés depuis deux ans à l’occasion d’un projet du Centre national de recherches Canada (CNRC) pour la préservation et la revitalisation des langues autochtones sont variés. Le projet de 6 millions $ s’achèvera en mars 2020.

Même si le boulot accompli jusqu’ici est prometteur, le gestionnaire du projet Roland Kuhn tient à relativiser son importance. « La technologie n’est qu’une petite partie du processus de revitalisation. Le plus gros du travail est accompli par les communautés elles-mêmes. Nous ne sommes là que pour les aider », précise-t-il d’emblée lors d’une présentation à la conférence HUB Montréal.

Au cours des deux dernières années, son équipe et leurs partenaires ont mis en place différentes technologies qui répondaient à des besoins mentionnés par les communautés elles-mêmes, et qui étaient réalistes considérant les contraintes techniques associées aux langues autochtones.

« En général de nos jours, on utilise des technologies d’apprentissage machine sur de grands ensembles de données pour travailler sur le langage. Mais avec la plupart des langues autochtones, on n’a pas assez de matériel pour pouvoir le faire », illustre Roland Kuhn. Parmi la soixantaine de langues autochtones au Canada, seul l’inuktitut jouit d’un corpus plus fourni, grâce aux documents produits par le gouvernement du Nunavut.

Ces données ont d’ailleurs permis au CNRC d’élaborer un outil de traduction automatique entre l’anglais et l’inuktitut, qui pourra être utilisé pour augmenter l’efficacité des traducteurs du gouvernement.

Hormis pour l’inuktitut, l’objectif du CNRC est de développer des solutions pour une langue spécifique, qui pourront ensuite être adaptées à d’autres. « On ouvre le code de tout ce qu’on fait, et on essaie de publier une documentation pour permettre aux communautés de reproduire le travail sans notre participation », note le gestionnaire.

Des technologies pour préserver les langues en voie d’extinction

Plusieurs langues autochtones menacées ne sont plus parlées que par une ou deux personnes âgées. Dans ces communautés, une véritable course contre la montre s’est installée pour conserver des traces audio de la langue, afin de l’analyser, la définir et d’en assurer sa survie.

« Dans certains cas, beaucoup d’enregistrements existent déjà », note toutefois Gilles Boulianne, chercheur en traitement automatique de la parole au Centre de recherche en informatique de Montréal (CRIM). Malheureusement, ces enregistrements réalisés au cours des dernières décennies par des stations de radio, des linguistes ou les communautés elles-mêmes dorment souvent sur des tablettes.

Une heure d’enregistrement peut prendre de 30 à 60 heures pour être transcrite et, dans la plupart des cas, le personnel qualifié pour le faire est limité. « On ne peut pas humainement tout transcrire. C’est pourtant la première étape si on veut créer du matériel éducatif, transmettre la langue et la documenter avant qu’elle ne disparaisse », se désole le chercheur.

Pour aider les communautés à mieux cibler leurs efforts de transcriptions, le CRIM a élaboré deux outils. Un premier pour segmenter automatiquement les documents audio (afin de ne conserver que les bouts parlés et les séparer en interlocuteurs, par exemple) et un second, toujours en cours de développement, pour permettre la recherche dans les fichiers.

« Le défi est que la reconnaissance de mots traditionnelle est difficile à appliquer aux langues autochtones », précise Gilles Boulianne. La plupart de ces langues sont en effet polysynthétiques ou agglutinantes. « Tout le sens d’une phrase peut être contenu dans un seul mot », explique le chercheur. Les technologies existantes, développées pour des langues qui ne sont pas polysynthétiques, comme l’anglais ou le français, sont donc peu utiles avec les langues autochtones.

Le CRIM développe donc un outil pour reconnaitre automatiquement toutes les syllabes d’un document audio, ce qui devrait au moins permettre de chercher des mots-clés, pour aider les transcripteurs à mieux cibler leurs efforts.

Le centre de recherche a aussi développé une méthode qui utilise l’apprentissage machine lorsqu’un seul interlocuteur a enregistré plusieurs heures de documents. Il est alors possible d’effectuer de la transcription automatique en phonèmes, qui pourront être utilisés par les linguistes cherchant à documenter une langue. L’outil nécessite seulement 3,5 heures de fichiers audio pour être entraîné, mais il ne permet ensuite de transcrire que les enregistrements effectués par cette même personne.

Des outils pour l’enseignement et la revitalisation des langues

Les technologies peuvent aussi aider les langues dont l’effort de revitalisation est déjà bien entamé. Le CNRC s’est ainsi associé à un enseignant mohawk de Kahnawake pour développer un logiciel afin d’aider ses étudiants à conjuguer des verbes mohawks. « Les verbes sont le plus grand obstacle pour apprendre le mohawk. Si un Bescherelle mohawk existait, il ferait 22 étages de haut », explique Roland Kuhn.

Un modèle de synthèse de la parole mohawk a aussi été créé. Une technologie du genre pourrait notamment être intéressante pour les communautés souhaitant créer des dictionnaires en ligne. La synthèse de la parole permettrait dans certains cas d’entendre des mots avec toutes les intonations possibles, par exemple.

Un outil a également été développé pour permettre aux communautés qui possèdent des livres numériques de synchroniser le texte avec une piste audio, pour pouvoir lire en même temps qu’on écoute l’histoire. Le logiciel, ReadAlong Studio, est offert en atikamekw, en chatino des hautes terres de l’Ouest, en chukchi, en cri du Sud-Est, en cri du Nord-Est, en gitksan, en hoocąk, en inuktitut, en kwak’wala, en mohawk et en SENĆOŦEN.

Le CNRC a également adapté un logiciel de prédiction du texte existant, Keyman, pour qu’il puisse être utilisé avec le SENĆOŦEN, un dialecte salish parlé par la communauté W̱SÁNEĆ en Colombie-Britannique. « C’est long rédiger un texto en langue autochtone », observe Roland Kuhn. Un clavier du genre, accessible sur iOS et Android, permet d’accélérer l’écriture et pourrait encourager les jeunes de la communauté à utiliser leur langue plus souvent. « Si on veut qu’ils adoptent leur langue, il faut qu’ils aient autant que possible accès aux mêmes outils qu’en anglais et en français », estime le gestionnaire.

Le SENĆOŦEN n’est désormais la langue maternelle que de trois personnes âgées dans le monde. Un logiciel pour faciliter l’écriture de textos ne sauvera pas la langue à lui seul, mais il s’agit tout de même d’un atout de plus pour aider les efforts de revitalisation de cette communauté.