Faut-il avoir peur… des robots rédacteurs ?

Les algorithmes capables d’écrire des textes tout seuls finiront-ils par remplacer les rédacteurs humains ? Pourra-t-on même les « dompter » pour que les textes favorisent une certaine idéologie ?

Photo : Adragan / Getty Images

OpenAI, fondé notamment par Elon Musk, a semé récemment tout un  émoi dans les médias en annonçant avoir mis au point un algorithme tellement habile pour écrire des textes tout seul que ce centre de recherche a préféré ne pas en publier le code, afin d’éviter qu’il ne soit utilisé par des gens mal intentionnés pour inonder le monde de fausses nouvelles. Vantardise ou sérieuse raison de s’inquiéter ?

Cet algorithme, baptisé GPT-2, est un modèle de langue, c’est-à-dire un modèle mathématique visant à mettre en équation le ton et la nature d’un texte dans un contexte particulier. Les modèles de langue ne sont pas nouveaux : ils sont derrière toutes les applications qui génèrent aujourd’hui des textes automatiquement, pour énoncer des prévisions météo, traduire une phrase ou proposer des mots dans un message texte.

Avant qu’ils puissent rédiger, ces modèles doivent être entraînés sur un énorme volume de textes ressemblant à ceux souhaités. GPT-2 a été exercé à partir de huit millions de pages Web, avec comme mission de choisir, un mot après l’autre, les termes pour concevoir un texte dont on écrit le début pour lui. Dans la présentation technique qu’en fait OpenAI, les chercheurs expliquent qu’ils lui ont demandé par exemple d’écrire la suite d’une histoire inventée de licornes découvertes dans les Andes. Les paragraphes que GPT-2 a été capable de générer pour imaginer tout seul la continuation sont bluffants : on jurerait qu’ils ont été écrits par des rédacteurs humains !

Même s’il peut ainsi inventer et produire de toutes pièces des textes très convaincants, GPT-2 est loin d’être parfait : il lui arrive aussi de composer deux fois de suite le même bout de texte ou bien d’écrire des choses invraisemblables (qu’un feu prend dans de l’eau, par exemple). Entraîné sur des sujets populaires (comme le Brexit ou Miley Cyrus), GPT-2 pond encore 50 % de texte « raté », selon ses concepteurs. Avec un tel taux d’erreur, il y a une bonne marge de progrès à réaliser avant que l’on confonde le résultat avec celui d’un rédacteur humain !

Il est vrai qu’un tel outil, s’il était plus efficace, pourrait créer automatiquement des quantités de fausses nouvelles bien plus importantes que ce que des humains, même travaillant à la chaîne dans un pays totalitaire, seraient capables de rédiger. En revanche, on ne peut pour l’instant lui dicter quoi écrire, puisqu’on ne comprend pas réellement la manière dont ces algorithmes « apprennent ». Peut-on à la fois avoir un modèle de langue ultraperformant et le « dompter » pour que les textes favorisent une certaine idéologie politique, par exemple ? Ça reste à démontrer.

Dans la même catégorie
Boutique Voir & L'actualité

Obtenez jusqu’à 40% de plus pour votre prochaine sortie

1 commentaire
Les commentaires sont fermés.

Bon article de vulgarisation mais avec quelques imprécisions. Excusez ce long commentaire, mais le sujet m’interpelle à plusieurs niveaux.

1) Précisions scientifiques

D’abord, un modèle de langue est un programme capable simplement de prédire le prochain mot dans un texte. En général, on lui donne un mot ou dans le cas de GPT-2 une phrase de départ et il génère un nouveau texte. En effet, la proposition de mots dans un message texte fait appel à un modèle de langue (rudimentaire). Par contre, les applications qui génèrent des textes automatiquement, pour écrire un bulletin météo, décrire des résultats sportifs ou commenter les cours de la bourse partent de gabarits avec des parties variables et n’utilisent généralement pas de modèle de langue.

2) Peut-on à la fois avoir un modèle de langue ultraperformant et le « dompter » pour que les textes favorisent une certaine idéologie politique, par exemple ?

Je vais répondre à cette intéressante question en fin d’article. Il est en effet possible d’influencer le texte produit par le modèle GPT-2 ou tout modèle génératif du même genre. Pour donner un bias au modèle, il suffit de l’entraîner sur un corpus biaisé. Par exemple, enrichir le corpus avec des textes dont on veut promouvoir l’idéologie. Sans rentrer dans des détails trop techniques, on peut aussi faire de l’apprentissage par transfert et ajouter des couches entraînées sur des données biaisées par dessus le modèle de base, ce qui demande beaucoup moins de calcul.

3) Une tâche titanesque – données massives et calculs massifs

GPT-2 (pour Generative Pre-training Transformer) aurait été entraîné sur un corpus énorme (40 gigaoctets de textes) pendant une semaine sur une architecture comportant 32 processeurs spécialisés dans les calculs matriciels (TPU: Tensor Processor Unit). On estime les coûts de calcul du plus gros modèle comportant 1.5 milliards de paramètres à environ 58 K$ can. Ce n’est que la pointe de l’iceberg, car on néglige tous les calculs ayant menés à sa mise au point.

4) Montréal pionnière du domaine

Notons en passant que les avancées récentes en traduction automatique neuronale originent en grande partie des travaux pionniers du MILA et de l’équipe de Yoshua Bengio de l’UdeM qui ont été perfectionnés et industrialisés par Google. Par exemple, les modèles neuronaux du langage et le mécanisme d’attention sur lequel est basé l’architecture Transformer utilisée par GPT-2.

5) Les impacts de l’autocensure d’OPenAI

Ne pas publier le code source et les modèles pré-entraînés comme l’a fait OpenAI pour GPT-2, n’est pas la solution, car les groupes organisés qui produisent des fausses nouvelles ont les moyens d’entraîner ces modèles, tout comme les géants du GAFAM (Google, Amazon, Facebook, Microsoft). Ce sont les chercheurs, les petites entreprises et la démocratisation de l’IA qui souffriront le plus de cette autocensure.

6) La solution éthique véritable

La science est neutre mais les innovations qui sortent de nos laboratoires auront des effets sur la société. C’est pourquoi il est important d’avoir une éthique pour éviter les débordements. Le scientifique, pas plus que quiconque, ne pourra empêcher la science de se construire, d’autres le feront avec peut-être moins de souci éthique et sous d’autres cieux.

Comme il est impossible de revenir en arrière, empêcher l’invention d’une technlogie, ou «désinventer» une technologie existante, la solution devrait être une réglementation et des lois pour contrôler les abus, incluant des traités internationaux. Cela dit, la création de lois devrait être plus rapide et plus réactive pour s’accorder au rythme de la technologie.

C’est pourquoi, il faut soutenir et encourager des initiatives comme la «Déclaration de Montréal» pour un développement responsable de l’IA. La communauté IA de Montréal dont M. Bengio est le porte-étendard, montre la voie au monde entier.

Claude Coulombe
doctorant en sciences cognitives
TÉLUQ / UQAM