Après avoir provoqué une onde de choc avec le lancement de ChatGPT en novembre, l’entreprise américaine OpenAI revient cette semaine avec GPT-4, une nouvelle version de la technologie qui alimente son robot conversationnel utilisant l’intelligence artificielle pour générer du texte.
GPT-4 offre quelques nouveautés, comme la possibilité pour le robot de voir des images (pour créer une recette à partir d’une photo des aliments dans votre réfrigérateur, par exemple). Sa capacité d’analyse de texte a été augmentée à environ 20 000 mots d’un seul coup, ce qui lui permet de résumer un long article et améliore sa réponse. OpenAI annonce qu’il est aussi en mesure de résoudre des problèmes plus complexes. Que les améliorations vont permettre de réduire les cas de fabulation et de mieux respecter les consignes de sécurité de l’entreprise, qui officiellement du moins interdit entre autres les conversations autour des conseils médicaux (des consignes qui peuvent toutefois être transgressées, comme l’ont démontré différents médias).
Ces améliorations peuvent-elles aussi être observées avec des requêtes en français, ou spécifiques au Québec ? Pour le savoir, j’ai essayé avec GPT-4 certaines de mes interactions insatisfaisantes des derniers mois avec GPT-3.5, son prédécesseur.
Plus logique qu’auparavant
Quel nombre à trois chiffres vous donnera la même réponse si vous soustrayez 5 ou divisez par 5 ? Jusqu’à tout récemment, la réponse de ChatGPT ne tenait pas la route :
Le nombre à trois chiffres qui donne la même réponse lorsqu’on le soustrait de 5 ou lorsqu’on le divise par 5 est le nombre 125.
Si l’on soustrait 5 de 125, on obtient 120, et si l’on divise 125 par 5, on obtient également 25.
ChatGPT avec GPT-4 résout désormais cette énigme correctement.

Comment ce modèle statistique dénué d’une véritable intelligence ou d’une capacité d’analyse (il faut le rappeler) y parvient-il ? Voilà qui est plus difficile à dire. OpenAI s’est en effet montré avare de détails par rapport aux améliorations apportées au système qui pourraient expliquer ses meilleurs résultats aux questions de logique. Dans ce cas-ci, mais aussi avec d’autres énigmes du genre essayées (dont certaines que j’ai moi-même inventées), ChatGPT décortique désormais sa démarche, ce qui semble l’aider à trouver la bonne réponse.
Voilà qui n’est pas de nature à rassurer les enseignants qui s’inquiètent du potentiel de ChatGPT pour la triche. Selon OpenAI, GPT-4 réussirait d’ailleurs beaucoup mieux que son prédécesseur différents tests standardisés, pour l’obtention du Barreau aux États-Unis, par exemple, ou pour résoudre des problèmes de calcul différentiel et intégral.
Une base de données mieux comprise
OpenAI n’a pas révélé la taille de la base de données utilisée pour entraîner GPT-4 (on pourrait comparer cela à la quantité d’ouvrages à laquelle un étudiant a accès pour se préparer à un examen) ni la taille de son modèle (l’effort que l’étudiant met dans son étude).
Après quelques essais avec GPT-4, rien n’indique que le modèle ait eu accès à plus d’informations, mais il semble mieux repérer l’info pertinente, alors que dans la version précédente, le résultat avait parfois l’air inventé tellement il était mal adapté. On peut le constater lorsqu’on lui pose une question sur le roman Volkswagen blues, de Jacques Poulin, paru en 1984, qui était connu de GPT-3.5 mais incompris.

J’ai observé la même chose en lui demandant ce qu’il connaissait de Maxime Johnson. Alors que GPT-3.5 avait besoin de quelques indices pour me replacer, GPT-4 arrive à le faire du premier coup.
GPT-4 peine toujours à copier un style en français
La version précédente arrivait à bien reproduire des styles en anglais (écrire une chanson dans le style particulier à un artiste, par exemple), mais beaucoup moins en français.
C’est toujours ardu avec GPT-4. Quand on lui demande d’écrire une nouvelle chanson à la manière des Cowboys Fringants, le modèle de langage ne parvient pas à reproduire le style du groupe, même s’il connaît son œuvre.

Le robot conversationnel est aussi incapable de créer un synopsis crédible pour un nouvel épisode de La petite vie (les personnages sont mal identifiés et l’action n’est pas représentative de cette série), par exemple, alors qu’il y arrive avec une comédie de situation américaine comme Friends.
GPT-4 hallucine moins (mais encore trop)
Avec la version GPT-3.5, il suffisait de quelques essais pour se rendre compte que le robot conversationnel avait tendance à amalgamer des informations, ce qui donnait des fabulations et faussait des faits — le tout d’une manière convaincante —, comme ici, lorsque je lui avais posé une question sur les maires de Québec et de Montréal :
Le robot conversationnel GPT-4 s’en est tenu aux faits quand je lui ai reposé la question sur le maire de Québec pendant le mandat de Denis Coderre.
Il s’est par contre encore trompé dans l’itinéraire pour aller de Montréal à Gaspé.
Le modèle de langage n’est pas conçu pour répondre à une requête du genre. Ce n’est pas un moteur de recherche ni un navigateur GPS. Même si quelqu’un a relaté quelque part sur le Web son trajet précis entre Montréal et Gaspé, GPT-4 ne le sait pas forcément. (Rappelez-vous la comparaison entre la quantité d’ouvrages à laquelle un étudiant a accès pour se préparer à un examen et l’effort qu’il met dans son étude.) Et manifestement, il ne le sait pas.
GPT-4 devrait toutefois être en mesure de connaître et de bien définir ses limites, ce qu’il ne semble toujours pas capable de faire. « Savoir que l’on sait ce que l’on sait, et savoir que l’on ne sait pas ce que l’on ne sait pas : voilà la véritable intelligence », aurait dit Confucius. De toute évidence, l’intelligence artificielle n’en est pas.
À mon avis, évaluer le français de ChatGPT en lui demandant de créer une chanson à la manière des Cowboys Fringants ou un nouvel épisode de «La petite vie» est erroné. En effet, les chansons des Cowboys sont écrites en québécois, et non en français. Tout comme la série de Claude Meunier.
Tout je que j’espère, c’est qu’à l’avenir, grâce à l’intelligence artificielle du texte, l’écrivain fantôme par excellence, les auteurs sériels psychopathologiques vont être obsolètes d’avance aux yeux des éditeurs qui n’y trouveront plus du tout leur compte en librairie. La qualité va enfin détrôner la quantité! Autrement dit, quand un autre Simenon aura mis en point dans sa petite cervelle de moineau génial un algorithme de production en série, il va y réfléchir à deux fois avant d’inonder le marché de clones par centaines dans le seul but de mener un train de vie princier à travers le monde, il va se contenter d’écrire les quelques prototypes de chef-d’oeuvres qui en valaient la peine pour franchir le rubicond de la postérité !
À mon avis GPT-4 a été lancé prématurément… Un modèle multimodal, c.-à-d. un modèle qui traite et génère des donnés dans plusieurs formats (textes, images, sons, video) qui ne génère que du texte, c’est plutôt incongru. En effet, le successeur du modèle qui alimente ChatGPT est un modèle multimodal incomplet avec en entrée des textes ou des images alors que la sortie est limitée à du texte. De plus, l’interface de programmation des images est non disponible. Donc pas de création interactive de films à la volée comme plusieurs anticipaient.
Le progrès le plus significatif est que GPT-4 performe à un niveau comparable à des humains sur un ensemble d’examens standards comme l’examen du Barreau américain. On comprendra que GPT-4 a été spécifiquement entraîné sur l’ensemble des examens du passé et avec des données de haute qualité ajoutées pour mieux réussir ces examens.
Aussi, l’article compagnon, est un livre blanc. Aucun détail sur l’architecture, le nombre de paramètres, la manière d’entraîner le modèle, le matériel informatique, ni sur les données utilisées. Donc on est très loin d’un logiciel libre donc contraire à la mission initiale de la compagnie « OpenAI ».
La question que l’on peut se poser est « Pourquoi avoir annoncé GPT-4 si prématurément? ». Je soupçonne qu’on voulait conserver le projecteur des médias sur ChatGPT au moment de l’annonce de technologies par plusieurs concurrents: Claude par Anthropic, LLaMA par Meta et PaLM-E ainsi que Bard par Google.
En conclusion, malgré des améliorations notables, GPT-4 n’est pas la percée révolutionnaire annoncée.
Claude COULOMBE
Ph, D. – consultant en IA appliquée
Présentation GPT-4 Youtube: https://bit.ly/3yMDlxO, Site web GPT-4 : https://bit.ly/3JHKMN7, Livre blanc GPT-4 : https://bit.ly/3YLJiWF