La linguistique fait des pas de géant à Google I/O

Les nouveautés dévoilées à la conférence Google I/O que retient notre chroniqueur techno ont un point en commun : elles montrent que les systèmes informatiques comprennent de mieux en mieux le langage. En voici cinq qui pourraient un jour vous simplifier la vie.

Crédit : Google

Petite mise en garde pour débuter : même si elle a frappé de nombreux coups de circuit (c’est quand même là qu’on a présenté Android et Google Photos), I/O est aussi le lieu de naissance de Wave et Glass, des produits qui ont été abandonnés avant d’être lancés en bonne et due forme pour le grand public. 

Tout ce que vous lirez ici ne verra donc pas forcément le jour. La conférence Google I/O, où l’entreprise californienne dévoile depuis 15 ans ses produits et technologies à venir, est d’ailleurs un peu reconnue comme un événement où sont parfois présentés les échecs de demain. 

Ces ratages peuvent toutefois annoncer d’autres évolutions. Wave, une sorte de Google Docs avant l’heure, a tout de même ouvert la voie au travail collaboratif en ligne qui nous a permis de mieux fonctionner professionnellement pendant la pandémie, et Glass a été pour plusieurs le premier contact avec la réalité augmentée. 

Les tendances ne mentent pas, et la compréhension du langage par les systèmes informatiques en est certainement une à garder à l’œil. 

Synthétiser des documents et conversations au travail

Résumer un long document de travail pour vous donner une idée de ce qu’il contient, dégager les principaux points qui ont été discutés pendant votre absence dans un service de clavardage et même faire la synthèse d’une rencontre d’équipe en vidéoconférence : ces différentes fonctionnalités à venir dans la suite Workspace illustrent à quel point la compréhension du langage a fait du chemin depuis l’arrivée des techniques d’intelligence artificielle comme l’apprentissage profond.

Synthétiser les sujets principaux d’une rencontre vidéo requiert par exemple de la transcription automatique, de la compréhension de longs passages de texte et de la génération automatique de texte, pour créer le sommaire. Chacune de ces étapes aurait été impossible il y a quelques années seulement.

La fonctionnalité sera déployée au cours des prochains mois dans les populaires logiciels Docs, puis Chat et Meet. Notons que l’entreprise n’a pas mentionné dans quelles langues les résumés seraient offerts, mais tout indique que le lancement se fera en anglais dans un premier temps.

Générer du texte automatiquement

La génération de texte est un autre domaine qu’explore Google, avec le lancement de son algorithme LaMDA 2, qui permet à une intelligence artificielle de converser en anglais sur n’importe quel sujet.

Les risques associés à une telle technologie sont nombreux, surtout si elle est utilisée à mauvais escient, pour créer de la désinformation, par exemple. L’algorithme sera donc accessible à de petits groupes de chercheurs dans un premier temps (d’autres invitations suivront au cours des prochains mois), et seulement dans le cadre de trois expériences, où ils pourront demander à LaMDA 2 de décrire une scène, de soutenir une conversation à propos des chiens ou de générer une liste de choses à faire en fonction de n’importe quel sujet.

Converser plus naturellement avec les assistants

Les assistants vocaux comme l’Assistant Google sont déjà assez bons pour reconnaître notre langage de tous les jours, mais ils exigent une parole qui respecte un certain moule. Si vous mettez trop de temps à compléter le titre d’une chanson, l’assistant risque d’effectuer une recherche à partir de votre requête partielle (et ainsi faire jouer « L’amour » de Karim Ouellet plutôt que « L’amour est sans pitié » de Jean Leloup, que vous aviez l’intention de demander).

L’assistant vocal pourra bientôt saisir un peu mieux les subtilités de la parole humaine. Il devrait ainsi comprendre qu’un « hmm » ne fait pas partie de la requête, et détecter l’intonation différente entre une pause et la fin d’une requête.

Des exemples de ces algorithmes améliorés ont été présentés à I/O, mais leur date de mise en fonction n’a pas été annoncée.

Traduire les 7 000 langues oubliées par la traduction automatique

Même si les langues parlées par la plupart des personnes sur terre peuvent être traduites par des outils de traduction automatique, environ 7 000 langues dans le monde ne peuvent toujours pas profiter de ces technologies, dont un grand nombre de langues autochtones d’Amérique du Nord.

Jusqu’ici, les modèles de traduction automatique étaient entraînés avec des jeux de données bilingues. En comparant suffisamment de textes déjà traduits entre deux langues, les outils d’intelligence artificielle étaient en mesure « d’apprendre » à les traduire.

Pour la majorité des langues qui n’ont pas bénéficié d’un tel traitement, il n’existe pas suffisamment de textes bilingues accessibles. Les chercheurs de Google ont donc mis au point un modèle « monolinguistique », capable d’être entraîné sans textes préalablement traduits.

L’approche, expliquée plus en détail ici, n’en est qu’à ses débuts, mais l’entreprise juge qu’elle serait déjà assez bonne pour générer des traductions imparfaites, mais pratiques et utilisables. Google Translate s’est d’ailleurs enrichi de 24 langues supplémentaires cette semaine grâce à cette approche, dont le mizo, une langue tibéto-birmane parlée par seulement 800 000 personnes dans le monde. Cela porte à 133 le total des langues pouvant être traduites avec l’outil. 

Converser avec des lunettes de réalité augmentée

Les grandes entreprises technos ont toutes confirmé leur intérêt pour la réalité augmentée, où des informations numériques sont affichées par-dessus le monde réel dans le champ de vision de l’utilisateur, notamment avec des lunettes connectées. Google ne fait pas exception à la règle.

L’entreprise a présenté au Google I/O un prototype de lunettes de réalité augmentée, qui ont la forme et la taille de lunettes normales. L’amélioration par rapport aux pas très discrètes Google Glass est évidente.

Les nouvelles lunettes serviront entre autres à afficher en temps réel une traduction de ce que dit l’interlocuteur de la personne qui les porte, comme des sous-titres à la télé. La technologie devrait être utile notamment pour discuter avec quelqu’un dans une autre langue, mais aussi pour les malentendants.

Aucune date de lancement n’a été annoncée pour ces lunettes, mais il faudra probablement attendre encore quelques années avant qu’elles passent de prototype à produit fini, prêt pour le grand public.