Chaque mise à jour du logiciel Antidote apporte son lot de nouveautés, mais la 11e édition, lancée le 19 octobre dernier, marque un changement important pour le correcteur orthographique : l’arrivée d’un nouveau moteur neuronal, qui tire profit de l’apprentissage profond pour modifier comment Antidote décèle et corrige les erreurs dans un texte.
Dans Antidote 11, cette technologie permet, par exemple, de détecter des virgules et des mots manquants dans une phrase. Pour entraîner son moteur neuronal, l’équipe a notamment introduit artificiellement des erreurs dans son corpus principal d’un million de phrases, « en enlevant des mots et des virgules à des endroits stratégiques », précise Éric Brunelle, président et cofondateur de Druide, l’éditeur derrière Antidote.
L’apprentissage profond a aussi été utilisé pour développer d’autres fonctionnalités, comme la prononciation des mots du dictionnaire en anglais et en français, et ce, avec les accents de France et du Québec. Certaines nouveautés, telles que les améliorations apportées à la correction de textes juridiques, ont quant à elles été élaborées avec les méthodes habituelles de l’entreprise.
Les nouvelles fonctionnalités d’Antidote 11 ne représentent toutefois que le début de ce que Druide envisage de réaliser avec l’apprentissage profond.
Une fonction issue d’une collaboration universitaire étroite
La genèse du nouveau moteur neuronal remonte en quelque sorte à 2016, avec la création du Fonds Druide pour la recherche en analyse de texte, un don d’un million de dollars sur cinq ans au laboratoire MILA (l’Institut québécois d’intelligence artificielle) de l’Université de Montréal. « Nous cherchions une façon de redonner à notre alma mater », raconte André d’Orsonnens, président du conseil de Druide, et l’un des trois cofondateurs avec Éric Brunelle et Bertrand Pelletier, tous diplômés de l’Université de Montréal. Le laboratoire allait offrir chaque année une bourse de 20 000 dollars à un étudiant, et le reste du don allait servir à financer la recherche en langage naturel, le terme utilisé pour différencier la langue normale, comme le français et l’anglais, des langages informatiques, par exemple. Une quarantaine d’articles scientifiques ont été publiés jusqu’ici grâce aux travaux réalisés, sur des sujets comme l’efficacité de l’utilisation de l’historique d’une conversation par les systèmes de dialogues neuronaux et les limites de l’entraînement des systèmes de traitement du langage avec seulement du texte.
Le don a aussi rapproché Druide de MILA, relate Frédéric Laurin, directeur senior des partenariats à MILA. « Ils sont devenus nos partenaires, ce qui leur donne accès notamment à une série d’événements de nature scientifique. Nous avons également organisé avec eux un séminaire annuel lié au traitement des langues naturelles. » Cette alliance a ainsi permis à Druide d’être au fait des dernières avancées en intelligence artificielle, parfois des mois avant la publication des articles.
Deux étudiants-chercheurs de MILA ont contribué à développer les réseaux neuronaux mis au point pour Antidote. « On n’aurait pas pu faire ça à l’interne. Il aurait fallu retourner sur les bancs d’école ! » illustre Éric Brunelle. L’entreprise a ensuite embauché un informaticien formé à MILA, qui a achevé l’intégration dans Antidote 11.
MILA noue de plus en plus de partenariats du genre. D’une poignée il y a quatre ans, l’institut en est à presque 80 entreprises partenaires, précise Frédéric Laurin. « C’est une façon pour nous de faire du transfert technologique et de favoriser l’adoption de l’intelligence artificielle. »
Habituellement, MILA choisit les entreprises en fonction de leur maturité et des bénéfices qu’elles peuvent tirer de la collaboration. Les partenaires doivent payer des frais annuels pour être membres de MILA. Druide a opté pour une autre voie : « On aurait pu collaborer autrement avec eux, reconnaît d’ailleurs André d’Orsonnens, mais on voulait faire plus que ça. Le don était d’abord et avant tout un geste philanthropique. »
Le début d’une révolution dans Antidote
Le moteur de correction symbolique d’Antidote, développé avec des linguistes depuis plusieurs années, est toujours au cœur de l’outil. Mais l’entreprise a mis au point avec MILA au cours des cinq dernières années différents réseaux neuronaux, pour tenter d’améliorer la détection d’erreurs et les changements réalisés par le moteur de correction. Il a fallu expérimenter avec diverses techniques d’intelligence artificielle avant d’arriver à non seulement accroître dans certains cas l’efficacité de la correction, mais aussi à corriger rapidement (Antidote doit fonctionner sur toutes sortes d’ordinateurs, dont plusieurs qui ne sont pas puissants).
Pour entraîner les réseaux neuronaux, Druide a embauché des réviseurs professionnels, qui ont annoté avec précision un corpus de 120 000 phrases, créé spécialement pour l’apprentissage profond, à partir de textes anonymisés obtenus grâce à la version Web d’Antidote. « Leur mandat était de corriger le texte comme ils l’auraient fait pour leur plus important client. S’il y avait des problèmes esthétiques, une phrase en trop, des idées à intervertir, un concept qui n’était pas assez clair, tout devait être changé, et la nature de chaque correction devait être indiquée », souligne Éric Brunelle.
Il fallait trouver les bons outils pour permettre au moteur neuronal de justifier l’erreur soulevée. « Antidote explique chaque diagnostic qu’il pose. D’une part pour que l’utilisateur puisse comprendre ce qui se passe, et d’autre part pour qu’il puisse savoir si Antidote se trompe », rappelle Éric Brunelle. Il était donc essentiel que le moteur neuronal ne soit pas une « boîte noire » où on ignore comment une décision a été prise, comme c’est souvent le cas en intelligence artificielle.
Cette nouvelle façon de corriger n’a pas été intégrée à la version 11 d’Antidote, mais elle le sera graduellement avec le temps. « Le moteur neuronal ne va pas remplacer la correction symbolique. Les deux vont cohabiter, car il y a des choses pour lesquelles l’un sera toujours plus efficace que l’autre », prédit le concepteur principal d’Antidote.
Jusqu’à présent, seulement 63 types d’erreurs sur 2 000 sont plus efficacement décelées avec le moteur neuronal. Le nombre de types d’erreurs corrigées devrait augmenter avec les années. « La technologie est prometteuse. Ce n’est pas garanti que tout fonctionnera, mais on en a pour plusieurs années à tirer profit de tout le travail réalisé », prévoit Éric Brunelle.
Wow