L’auteure est professeure agrégée de données, économétrie et éthique pour le réseau privé de formation continue OMNES Education.
L’histoire commence en mai 2022 au Kenya : Daniel Motaung, un ancien modérateur de contenu de la société locale Samasource Ltd., dépose alors une plainte (petition en anglais) contre ses dirigeants ainsi que leurs donneurs d’ordres, soit de nombreux géants du Web, dont Meta (la société mère de Facebook).
Dans cette plainte, Daniel Motaung accuse Sama et Meta de traite d’êtres humains, de démantèlement de syndicats et de refus de fournir un soutien adéquat en matière de santé mentale.
Sama — leader dans le domaine de l’annotation — emploie des « étiqueteurs », qui ont pour mission de visionner et de taguer des contenus très éclectiques, souvent consternants, parfois extrêmement violents, provenant de divers réseaux sociaux et d’Internet. L’objectif : modérer les contenus sur les réseaux sociaux et fournir des bases de données équilibrées pour l’apprentissage des intelligences artificielles.
Neuf mois plus tard, le 6 février 2023, une première décision historique a été rendue par le juge kényan Jakob Gakeri : ce dernier a statué sur le fait que les cours kényanes étaient compétentes pour juger des sociétés étrangères dont des filiales se trouvent au Kenya, ainsi que sur la responsabilité des donneurs d’ordres. La procédure est en cours pour de nouvelles audiences.
C’est la première fois qu’une telle affaire est jugée dans les pays où vivent ces « forçats du numérique », et que le jugement se fait selon les termes de la plainte déposée. Une façon d’exposer à la planète entière les coûts humains du numérique.
Les termes de la plainte
Sama fait ainsi travailler des milliers d’opérateurs venant de toute l’Afrique subsaharienne pour modérer et étiqueter des contenus des géants du Web comme Meta, Microsoft et OpenAI (la société à l’origine de ChatGPT) dans le cadre de « partenariats d’externalisation ». OpenAI a d’ailleurs confirmé que les employés de Sama l’avaient aidée à filtrer certains contenus toxiques.
Le juge a entériné les termes de la pétition sur la violation des droits constitutionnels de ces opérateurs, et dénonce ainsi les conditions matérielles et psychologiques déplorables dans lesquelles ils travaillent.
Avec cette décision, le juge a aussi retenu le bien-fondé des termes de la demande qui, expliquant les salaires insuffisants pour vivre décemment à Nairobi, la détresse psychologique des salariés (le demandeur souffrant d’un trouble de stress post-traumatique — selon ses conseils) et la définition du Haut-Commissariat des Nations unies aux droits de l’homme (HCDH), soutenait que la situation vécue par les étiqueteurs pouvait être qualifiée d’exploitation en vue d’un gain économique, en d’autres termes, de « traite d’êtres humains »… d’autant plus que les soutiens psychologiques contractuellement annoncés n’auraient jamais été mis en œuvre (à nouveau, selon les attendus de la pétition et les termes des conseils du demandeur).
Meta a tenté de faire appel de cette décision du juge Gakeri afin d’éviter le procès, sans succès. De plus, à la suite de cette décision du juge Gakeri, le contrat de Sama avec Meta a été annulé, et le repreneur, Majorel, aurait essayé de mettre sur liste noire les étiqueteurs de Sama. Deux cents d’entre eux ont porté plainte contre Meta et Sama pour licenciement abusif, dans une autre procédure.
L’utilité de l’étiquetage des données
Cette décision du juge Gakeri — et les suivantes — pourrait avoir des répercussions majeures sur les services de modération portés par les grandes plateformes Internet, en particulier celles qui utilisent l’intelligence artificielle.
En effet, l’étiquetage précis des données est essentiel pour que les algorithmes d’intelligence artificielle puissent apprendre et arbitrer correctement leurs résultats : par exemple, si une image est étiquetée « route » alors qu’il s’agit d’un mur, l’IA équipant une voiture autonome pourrait se tromper et provoquer un accident.
L’étiquetage des données consiste à fournir des informations pour aider les machines à apprendre à partir de données brutes comme des images, des fichiers texte et des vidéos. Cependant, différents types d’apprentissages existent (supervisé, semi-supervisé, par renforcement…) et on a besoin de plus ou moins de données en fonction de l’expérience utilisateur escomptée.
Une source de valeur pour les acteurs du numérique
Ces informations viennent des bases de données constituées par les géants du Web lors d’opérations d’étiquetage et de modération des contenus. Celles-ci sont censées prévenir et protéger tous les individus d’un accès non désiré à certaines données — comme une vidéo de décapitation par exemple — en créant et complétant les métadonnées, des données qui informent sur le contenu du fichier associé. Cette méthodologie a permis la création d’immenses bases de métadonnées, informées — et informant — en temps réel de la nature des contenus transitant par les réseaux.
Les métadonnées font le lien entre contenu et information, ce qui a permis de rénover le modèle économique des acteurs du Web et des réseaux, qui ont compris la valeur de ces métadonnées. En effet, celles-ci peuvent servir à entraîner certains algorithmes d’intelligence artificielle : ce n’est pas un hasard si Facebook a changé son nom pour Meta. Les coûts de la modération sont colossaux, car pour que les algorithmes de modération soient précis et efficaces, les données doivent être soigneusement contrôlées et décrites — une tâche qui nécessite une analyse de haute qualité et donc onéreuse — et ce, d’autant plus qu’elle doit faire l’objet de validations multiples afin d’éviter les biais des étiqueteurs.
Sous réserve de maintenir la qualité, ces coûts se sont donc transformés en valeur pour les géants du Web. En effet, un algorithme mal entraîné peut rapidement devenir toxique, biaisé ou même produire des hallucinations (c’est-à-dire créer des résultats qui ne correspondent à aucune donnée sur laquelle l’algorithme a été entraîné, ou qui ne suivent aucun autre modèle discernable). Cela détériore la confiance dans les contenus, ce qui touche l’audience et donc l’intérêt des annonceurs.
Du côté des algorithmes d’apprentissage des systèmes d’IA, leur crédibilité est avant tout fondée sur la capacité à fournir des réponses plausibles et précises, une tâche impossible sans données bien étiquetées.
Pour ces différentes raisons, une bonne qualité d’étiquetage nécessite un grand nombre d’étiqueteurs. En d’autres termes, cette industrie est à forte intensité de main-d’œuvre… d’autant qu’au moins de 10 % à 15 % des données créées chaque jour sont nouvelles et uniques.
Quel modèle économique pour l’étiquetage ?
Les industriels cherchent à trouver un équilibre entre la nécessité d’innover et le coût de cette innovation. Par exemple, le fonctionnement de ChatGPT coûte 700 000 dollars américains par jour sans amélioration des modèles, alors que pour encourager l’adoption d’un outil numérique, on considère généralement que le prix doit être modéré pour l’utilisateur (environ 20 euros par mois pour ChatGPT+ par exemple).
Les coûts de main-d’œuvre (d’étiquetage) représentent une grande partie des dépenses dans ce secteur. Dans une approche un peu obsolète de la division du travail et de la réduction des coûts, l’étiquetage a donc été sous-traité à des acteurs spécialistes comme Sama aux États-Unis ou Majorel au Luxembourg, qui disposent de filiales au Kenya.
Ce travail implique une exposition continue à des images, des sons et des contenus parfois insoutenables. Dans le cas de Sama, il a été rémunéré à hauteur de 1,5 euro l’heure après impôts — soit moins de la moitié du salaire moyen dans le secteur informatique kényan, qui est de 4,3 euros l’heure.
Ce sont les conditions de cette sous-traitance qui sont à l’origine de la décision du juge Gakeri.
Les effets des décisions des juges
L’originalité de cette lecture juridique tient au fait qu’elle bat en brèche la stratégie usuelle des entreprises du secteur des technologies de l’information, qui sont de fait des entreprises de main-d’œuvre, mais qui refusent d’être qualifiées comme telles et dissimulent leurs importants besoins humains derrière une chaîne de sous-traitants — bien loin des productions sans humains fantasmées à la fin du XXᵉ siècle.
Cette pratique constitue un non-sens économique, puisque c’est la connaissance, la maîtrise de toutes les phases des processus productifs et leur optimisation qui permettent la consolidation des marges et la pérennisation des modèles concernés.
Peut-être que la position du juge Gakeri apportera aux multinationales du Web une aide précieuse en matière d’amélioration de leur rentabilité et de leur modèle économique. Toujours est-il que désormais, le donneur d’ordres sera tout aussi responsable et justiciable que son prestataire en matière de conditions de travail, voire davantage.
On scrute aujourd’hui l’impact environnemental d’une structure dans toutes ses ramifications planétaires. Évaluera-t-on demain la responsabilité sociale des entreprises de la même manière, en considérant le processus de production des technologies de l’information comme un tout mondialisé ?
Faut-il inventer une éthique des processus de fabrication de l’IA ?
L’utilisation des technologies d’intelligence artificielle soulève déjà des questions éthiques, par exemple celle d’utiliser ou non la décision algorithmique pour établir des demandes de remboursement de prestations sociales.
On voit désormais émerger le besoin impérieux d’une éthique de la production des systèmes d’intelligence artificielle, car ici l’absence d’éthique sanctionne en temps réel la qualité et la confiance que l’on peut avoir dans les algorithmes produits. Si un algorithme mal entraîné peut demain faire dérailler un train ou une chaîne de production, la qualité de l’annotation devient non négociable — et cette activité demande mieux et plus que les conditions constatées au Kenya.
Le procès en cours depuis mars (puisque le juge a validé la compétence des cours kényanes dans ce domaine) changera peut-être la donne. D’autres secteurs faisant face à ces problématiques, la mode par exemple, ont amélioré leurs pratiques, la transparence de leurs fournisseurs et de leurs méthodologies de production, notamment en raison d’opérations massives de « name and shame » par la société civile, qui ont amené progressivement des consommateurs à se détourner des marques non vertueuses (sans pour autant que ces dernières le deviennent toutes).
Il n’est pas certain que, dans le domaine des technologies de l’information et de l’intelligence artificielle, l’utilisateur final puisse effectuer ce type d’arbitrage, car celles-ci deviennent de plus en plus partie intégrante des outils de productivité informatique utilisés quotidiennement par tous. En outre, les critères définissant les processus de production éthiques de l’IA demeurent à inventer. L’affaire en cours pourrait-elle constituer une bonne motivation pour penser à ces derniers ?
Cet article est republié à partir de La Conversation sous licence Creative Commons. Lire l’article original.

Merci pour ce texte très intéressant sur les dessous L’IA. Je comprends mieux comment la santé économique l’industrie l’IA est et l’industrie des technologies numériques repose finalement sur des humains sous payés et mal traités.