Avantages et inconvénients de l'intelligence artificielle

Avantages et inconvénients de l'intelligence artificielle

Illustration artistique d'un gynoïde ou robot doté d'IA à l'apparence féminine. Document T.Lombry.

Introduction (I)

L'intelligence artificielle (IA) est un sujet très vaste que nous avons divisé en plusieurs chapitres :

- Présentation, Définitions, L'usage de l'IA au quotidien, L'IA générative, L'IA prédictive, Les apprentissages symbolique, automatique et profond, Les Grands Modèles de Langage (LLM), Les data workers ou la face obscure de l'apprentissage des IA, cette page-ci

- De l'IA au monde concret sensible, Le côté obscur de l'IA, p2

- Le deepfake, L'analyse forensique, Les IA au service de la désinformation, L'impact psychologique des IA, Une question éthique à légiférer, p3

- Vers un usage éthique de l'IA (dont le Pacte sur l'IA de l'Union européenne), Les enjeux politiques de l'IA, p4

- L'avenir de l'IA, La vie n'est pas inscrite sur logiciel, p5.

Présentation

Nous entendons de plus en plus parler de l'intelligence artificielle, l'IA. C'est une technologie "à la mode" et même un outil de travail très utile pour de nombreux chercheurs dont les applications sont tous les jours plus nombreuses. Mais qui la connait réellement et peut la définir ? Seuls les spécialistes peuvent répondre à ces questions. En effet, si certains d'entre nous utilisent déjà l'IA à travers des applications grand public ou à titre professionnel et connaissent ses avantages comme ses inconvénients, beaucoup moins de personnes peuvent la définir ou connaissent les risques qu'entraine son utillisation.

Nous connaissons surtout l'IA à travers nos outils numériques les plus avancés, les communiqués de presse des entreprises du secteur de l'IA, les articles académiques ou éducatifs, ce qu'en disent les médias et à travers les interprétations qu'en font les cinéastes dans les films d'action. Ces deux dernières sources sont souvent binaires, accentuant soit le côté le plus séduisant soit le plus dangereux de l'IA qui cache en réalité une nature tout à fait neutre mais qui, comme toute machine ou système artificiel, doit être encadrée pour éviter toute erreur ou écart inattendu. On y reviendra en détails.

Quand on écoute certains politiciens voire même certains entrepreneurs en IA en quête de financements pour poursuivre leurs recherches, ils nous font croire que nous avons les moyens de maîtriser l'IA et qu'elle peut tout résoudre. Ils imaginent que nous vivons dans un monde parfait où tout est facile et tout le monde est coopératif. Mais dernière ces belles paroles se cache en réalité un monde des affaires très compétitif avec des milliards de dollars en jeu pour mettre la main sur cette techologie très prometteuse mais aussi très complexe et difficile à mettre au point.

Qu'est-ce que l'IA ? L'IA est un terme mal défini. Il fait généralement référence à des machines (plutôt que des programmes) capables d'apprendre ou de résoudre des problèmes automatiquement, sans être dirigées ou supervisées par un humain. De nombreux programmes d'IA reposent aujourd'hui sur l'apprentissage automatique (learning machine) et l'apprentissage profond (deep learning) supervisé ou non, une suite de méthodes d'apprentissage et de calculs utilisées pour reconnaître des modèles dans de grandes quantités de données, puis appliquer ces leçons acquises à la prochaine série de données et ainsi de suite, devenant théoriquement de plus en plus précises à chaque itération. On y reviendra.

Il s'agit d'une approche extrêmement puissante qui s'applique à tous les domaines, de la théorie mathématique fondamentale à la cosmologie, en passant par l'ingéniérie, la sociologie, l'épidémiologie et les diagnostics cliniques parmi des centaines d'autres domaines et spécialités où l'IA excelle souvent, mais pas toujours.

Si de nos jours nous pouvons contrôler ou débrancher un système d'IA, une étude a montré que le cas échéant, il serait impossible de contrôler une IA superintelligente. C'est donc aujourd'hui et tant que nous gardons le contrôle des machines, qu'il faut mettre en place des garde-fous et des réglementations strictes pour limiter leurs utilisations et leurs actions dont la possibilité qu'elles puissent décider à la place des humains. En fait cette autonomie de décision des IA existe déjà dans certains logiciels d'imagerie médicale (cf. R.Pant et al., 2022), certains drones militaires (cf. OTAN) et quelques instruments scientifiques utilisés par les sondes spatiales (cf. NASA) parmi d'autres applications. Quant aux projets secrets du DARPA, on ignore tout simplement ce qu'ils nous préparent. Mais quand on voit le genre d'arme et les technologies qu'ils ont déjà inventés, ce n'est pas très rassurant.

Pour comprendre toute la puissance de l'IA, commencons par la présenter sous son plus beau profil, celui de son usage au quotidien avec quelques exemples médiatisés et ludiques. Nous allons ensuite démystifier beaucoup d'idées préconçues en expliquant comment fonctionne une IA, quelles sont ses limites mais également ses détournements comme les abus dont elle fait l'objet et les risques inavoués.

Définitions

Qu'est-ce que l'intelligence ? Selon le dictionnaire "Le Robert", "l'intelligence est 1. la faculté de connaître, de comprendre ; qualité de l'esprit qui comprend et s'adapte facilement. 2. L'ensemble des fonctions mentales ayant pour objet la connaissance rationnelle (opposé à sensation et à intuition)".

Quant à l'intelligence artificielle, le Parlement Européen la définit comme la "reproduction des comportements liés aux humains, tels que le raisonnement, la planification et la créativité". Cependant, cette définition est discutable, car l'IA ne reproduit pas à proprement parler ces comportements, mais simule certains processus cognitifs à travers des algorithmes.

Mais connaître la définition d'un concept ou comprendre les étapes d'un raisonnement logique pour obtenir un résultat (cf. la naissance d'une théorie) ne signifie pas qu'on le maîtrise, et encore moins qu'on peut en doter une machine de manière générale. On peut bien la programmer, comme on configure un bras robotique, pour effectuer une tâche ou prendre une décision, mais cela restera un cas particulier parmi une infinité de situations possibles.

C'est pourquoi les développeurs et constructeurs rencontrent des difficultés dès qu'ils confrontent leur IA à des situations réelles, comme la conduite d'un véhicule en circulation ou la reconnaissance d'une personne dans un paysage. Loin des conditions contrôlées et optimisées des laboratoires, les IA sont souvent confrontées à des environnements beaucoup plus complexes et imprévisibles. En effet, une IA ne perçoit pas une image comme un humain, mais comme une matrice de valeurs numériques qu'elle doit interpréter à l'aide de ses algorithmes. Or, qu'est-ce qui ressemble plus à une suite de nombres qu'une autre suite de nombres ?

Nous verrons que la meilleure solution pour élaborer une IA consiste à la programmer mais de manière à ce qu'elle puisse elle-même rapidement accumuler des connaissances et s'améliorer grâce à un apprentissage.On y reviendra en détails.

L'usage de l'IA au quotidien

De nos jours, on ne s'en rend pas compte, mais l'IA est déjà présente dans la vie quotidienne et la plupart d'entre nous l'utilise sans le savoir. Elle est exploitée dans les GPS pour gérer le trafic et la navigation, dans les smartphones de dernière génération, les flux d'informations sur les réseaux sociaux en gérant les goûts et préférences des internautes (cf. Facebook), elle gère les recommandations de musique et vidéo en streaming (cf. YouTube), elle sert d'assistant virtuel ou chatbot sur certains sites de e-commerce, de banques en ligne et de certaines administrations publiques, elle interagit avec nous lorsqu'on pose une question sur un moteur de recherche comme Google, elle contrôle les voitures autonomes, elle intervient dans la domotique, l'imagerie médicale, la robotique industrielle, la sécurité et la surveillance, le secteur financier, la maintenance des stocks, la recherche scientifique, le secteur militaire, dans les fonctions de certains logiciels, etc. Bref, l'IA se diversifie et demain elle sera omniprésente.

Pour avoir exploré le sujet à l'époque, tous les ingénieurs vous diront que l'idée de reconnaître une séquence sonore ou des paroles par un ordinateur domestique (PC) était inimaginable en 1980, tellement les ordinateurs manquaient de puissance et de ressources. Grâce à une montée en puissance exponentielle des ordinateurs et une miniaturisation des composants électroniques toujours plus poussée, une génération plus tard, on pouvait le faire !

Les peintures rupestres de Lascaux assistées par un robot. Bien qu'anachronique cela nous rappelle que placée entre les mains d'une personne malintentionnée, on peut être abusé par une IA, ce qu'on appelle le "deepfake". Photomontage de Medium.

En 2002, le public découvrit "Shazam" sous la forme d'un service téléphonique au Royaume-Uni : l'utilisateur appelait un numéro, faisait écouter une musique, et recevait un SMS avec le titre et l'artiste. L'application mobile est arrivée plus tard, en 2008 sur iPhone, puis sur Android. Apple racheta Shazam en 2018.

Shazam repose sur des techniques de traitement du signal audio. Dans un sens large, Shazam utilise de l'IA car il s'appuie sur des algorithmes d'apprentissage automatique (voir plus bas) qui est un sous-domaine de l'IA, spécialisés dans la reconnaissance de motifs sonores.

Précisons que Shazam n'est pas une IA générative (voir plus bas), car il ne crée ni ne génère de nouveaux contenus. C'est une IA analytique. Son rôle est déductif et non créatif : elle compare un signal audio avec une base de données existante et identifie des correspondances. Toutefois, avec les progrès actuels, des modèles d'IA plus sophistiqués pourraient être intégrés pour améliorer sa précision ou reconnaître des morceaux remixés ou joués en direct.

Puis, en 2011, Apple sortit son assistant vocal Siri capable de dialoguer avec l'utilisateur (appeler un contact sur l'iPhone, trouver un lieu, faire une réservation, lui poser une question, traduire du texte, programmer un minuteur, etc), le grand public découvrit concrètement toute la puissance des techniques de reconnaissance vocale et les progrès accomplis en moins de deux générations dans le traitement du langage naturel (NLP).

Mais Siri n'est pas non plus une IA générative et n'a pas de véritable capacité d'apprentissage ou de génération de texte de manière autonome. En revanche, Apple travaille sur une nouvelle version appelée "LLM Siri" qui intègre des capacités d'IA générative. Elle devrait être disponible vers 2026. On reviendra sur l'apprentissage des IA et sur les LLM (voir plus bas).

Entre-temps, en 2009 Microsoft commença à intégrer des technologies liées au Web 3.0 (ou Web sémantique) lors du lancement officiel de son moteur de recherche Bing. L'un des premiers éléments était la capacité à offrir des réponses directes aux requêtes plutôt que de simplement fournir une liste de liens. C'est en 2017 que Bing intégra de l'IA, notamment avec les modèles de compréhension du langage naturel.

En parallèle, son concurrent Google (puis Alphabet) commença à exploiter le Web 3.0 dans son moteur de recherche vers 2012 en lança Knowledge Graph, qui permet d'afficher des informations sémantiques et contextuelles sur les personnes, les lieux et les objets directement dans les résultats de recherche. En 2015, Google déploya RankBrain, un algorithme basé sur l'apprentissage automatique, qui aide Google à interpréter les requêtes complexes et ambiguës. Tout cela évidemment combiné à l'indexation de mots-clés pour accélérer les recherches.

Des outils comme Bing et Google ont transformé le quotidien de nombreuses personnes. Depuis cette époque chacun peut poser une question en langage clair à Bing ou Google, y compris dans sa langue maternelle et en faisant des fautes grammaticales, et obtenir au moins une réponse dans la seconde. Le résultat est surprenant. Mais nous verrons que la réponse n'est pas toujours correcte.

En 2012, des spécialistes en IA présentèrent au public les étonnantes performances de l'apprentissage profond, une technique qui séduisit rapidement de nombreuses sociétés de développement informatique, de chercheurs, d'industriels et de politiciens, nous laissant croire que l'IA alliée ou non aux robots aurait réponse à tout et serait infaillible.

Face aux performances des IA, des chercheurs ont été un pas plus loin en les mettant à profit pour améliorer des images floues dans le cadre de projets militaires puis scientifiques (médecine, géophysique, astrophysique, etc.) ou pour extraire des informations pertinentes de grands ensembles de données (cf. le Big Data) a priori disparates ou trop complexes pour être traitées manuellement, y compris à des fins de surveillance (espionnage, anti-terrorisme, etc).

Quand les chercheurs ont exploité l'IA pour sélectionner la molécule la plus adaptée pour soigner un symptôme précis (cf. la médecine 4.0) et que les entreprises se mirent à digitaliser tout azimut ou à investir dans des robots intelligents pour optimiser leur rentabilité, nous avons compris que l'industrie 4.0 est parmi nous pour y rester. Mais c'était sans tenir compte des fausses promesses de l'IA ou plutôt des difficultés rencontrées qui allaient bientôt décevoir les chercheurs et les industriels opportunistes.

Après les robots industriels, de démonstration ou réservés au mannequinat, depuis les années 2020 le public a découvert que l'IA générative peut lui rendre de grands services. Elle est par exemple très utile pour tous ceux qui recherchent des informations, notamment les étudiants, les journalistes et les écrivains. Nous verrons qu'elle peut aussi aider les programmeurs ou assister les artistes parmi de nombreux autres compétences où l'IA excelle.

De nos jours, de nombreuses découvertes scientifiques n'auraient jamais été possibles sans l'aide de l'IA. Certains de ces outils sont aujourd'hui accessibles au grand public à travers des simulateurs ou des applications ludiques.

L'IA générative

L'IA générative est un système d'IA capable de générer des contenus très rapidement et très efficacement. Il peut s'agir d'images, de textes, de vidéos, etc. Son application la plus connue du public est la génération d'images à titre ludique mais elle peut tout aussi bien être utilisée à titre professionnel, à des fins de recherche (cf. AlphaFold de Google DeepMind) et être à l'origine d'activité commerciale et donc de profits.

La génération d'images

A titre ludique par exemple, l'IA générative fonctionne tellement bien que des programmeurs ont développé des applications graphiques (portraits, paysages, objets, etc) dans lesquelles il suffit de décrire à l'IA un sujet précis en langage clair, pour qu'elle le génère en moins d'une minute aussi bien qu'un artiste qui y passerait des journées comme illustré sur cette page.

Parmi ces outils citons les célèbres applications Dall-E, Midjourney et Stable Diffusion. On y reviendra. Ces IA sont entraînées par apprentissage automatique supervisé (voir plus bas). Toutes ces plate-formes sont très fréquentées. Depuis 2022, des dizaines de millions de personnes les utilisent qui génèrent au minimum près de 1 milliard d'illustrations par an (cf. Every Pixel). Certaines vont se retrouver dans les circuits commerciaux, en particulier dans les banques d'images en ligne telles qu'Adobe Stock, Dreamstime ou Freepik parmi d'autres.

A voir : Text to Image World Championship

(Stable Diffusion 2 vs. Midjourney v4 vs. Dall-E 2)

MIDJOURNEY, DALL.E ou VRAI ARTISTE ?

Ferez-vous mieux que ces expertes ?


Différents rendus non corrigés réalisés en moins d'une minute par l'IA de l'application Midjourney (version 5 de 2023 et version 6 de 2024) parmi d'autres sujets. Le rendu plus ou moins photoréaliste dépend du descriptif (prompt) et des paramètres configurés par l'utilisateur. Si c'était un humain, on dirait que cette IA est un polymathe car ce type de don exige des compétences en art graphique et dans de nombreuses sciences. Mais ce n'est qu'une impression, certes bluffante mais trompeuse, car tout démontre que les IA n'ont aucune conscience au sens propre de ce qu'elles réalisent, ne traitant finalement que des signaux électriques et des bits d'information sans aucun lien avec le monde sensible. Documents T.Lombry/Midjourney.

A la fin des années 1970, des programmes graphiques permettaient d'interpoler les images entre deux dessins en maille et de créer une transformation ou morphing continu de l'un à l'autre (cf. l'ancien générique de l'émission TV "Thalassa" sur FR3 transformant un voilier en poisson ou ce morphing de divers visages réalisé par l'auteur). Cet algorithme fut rapidement proposé pour les premiers micro-ordinateurs. De nos jours, grâce à l'IA, il est possible d'animer une image fixe et par exemple de donner vie au visage de la Joconde, de simuler le flux des vagues sur une plage ou le déplacement d'un objet parmi d'autres sujets (cf. cette animation sans prétention de la sonde spatiale Cassini réalisée par l'auteur). Parmi ces logiciels citons Leiapix (Immersity) et Lumalabs.

Les systèmes d'IA les plus complexes sont capables de reproduire virtuellement et de manière réaliste le portrait d'une personne réelle d'après photo et ensuite de l'animer à volonté, y compris de la faire parler à partir d'un enregistrement audio avec une synchronisation labiale et de la faire bouger dynamiquement, en temps réel (cf. Speech2Face). Si cette capacité très puissante est en soi intéressante, nous verrons page suivante qu'elle peut conduire à des abus.

Mais aussi photoréaliste et bluffant que soit le dessin ou le rendu généré par l'IA, ce n'est pas une création au sens propre, n'en déplaisent aux utilisateurs. En effet, la création est dans l'esprit de l'artiste ou de celui qui a écrit le prompt, le texte décrivant l'image que souhaite générer l'utilisateur. L'IA n'a fait que transformer ce texte pour générer un contenu plausible. D'ailleurs si vous utilisez une IA générative graphique, vous constaterez qu'elle propose systématiquement 4 rendus différents pour le même prompt. Certains sont réussis, d'autres sont moches ou ratés, preuve que l'IA ne comprend pas le sens ce qu'elle génère.

Devant le succès des IA génératives d'images, la banque d'images Shutterstock qui contient plus de 450 millions d'images, plus de 28 millions de vidéos et plus de 70 millions d'images vectorielles (mars 2024) s'est associée à OpenAI pour lui permettre d'entrainer son générateur d'images Dall-E sur la vaste bibliothèque iconographique qu'elle possède (mais uniquement sur les images sous licence). A leur tour, moyennant un abonnement les clients de Shutterstock peuvent générer et télécharger des images créées avec Dall-E. Les sites iStockPhoto et 123RF proposent également un outil d'IA de génération d'images.

Revers de l'invention, rien n'empêche une personne incapable de dessiner de se faire passer pour un artiste et de signer des oeuvres qui sont en réalité conçues par une IA comme illustré ci-dessus et d'en tirer profit. Si en soi ce n'est pas interdit, le fait de ne pas le mentionner et de tromper les éventuels amateurs d'oeuvre d'art est contraire à l'éthique.

Les images créées par les IA sont parfois si photoréalistes qu'elles sont indifférenciables d'une véritable photo. Pour éviter toute confusion, toutes les banques d'images exigent que celles créées à l'aide de l'IA soumises par les auteurs soient étiquetées comme telles afin de ne pas tromper le client. Paradoxalement, si Shutterstock propose une IA générative graphique à ses clients, l'entreprise n'accepte pas celles créées par l'IA dans sa banque d'images. Certains experts proposent même d'ajouter à l'en-tête EXIF attaché aux images une entrée spécifiant que le document fut généré par une IA. Mais comme tout photographe ou illustrateur le sait, de petits logiciels permettent d'éditer les métadonnées EXIF et cette entrée peut-être supprimée. Ce n'est donc pas une solution fiable ni pérenne.

Mais il serait naïf de croire que nous vivons dans un monde de bisounours où tous les utilisateurs de l'IA générative graphique ne font que des dessins innocents ou n'ont pas une finalité malsaine en créant ces images.

Avant que l'IA soit appliquée aux arts graphiques et mise à disposition du grand public (vers ~2020), tout personne disposant d'un logiciel d'édition d'image tel que Photoshop d'Abobe pouvait réaliser des photomontages et les faire passer pour de véritables photos prises sur le vif. A part les montages grossiers, il était souvent impossible de reconnaître le photomontage ou le truquage vidéo.

Mais de nos jours, avec la commercialisation d'applications graphiques dotées d'IA tels que Midjourney ou Adobe Firefly et des chatbot vidéos (agents vidéos conversationnels) tels que StoryFile ou Videoask parmi d'autres, la confusion est totale au point que même les professionnels des médias y compris les journalistes, les artistes (acteurs, photographes, illustrateurs) et les personnes publiques sont préoccupées par ce mélange des genres qui commence à agacer beaucoup de monde, y compris sur les réseaux sociaux.

On reviendra sur ces abus à propos de l'important problème du deepfake.

L'agent conversationnel (chatbot)

Quand on veut établir le classement des IA les plus performantes, les spécialistes pensent immédiatement aux IA génératives et en particuliers aux agents conversationnels tels que GPT-4, ChatGPT, Gemini, Bard ou Claude (cf. le Top Generative AI Tools et Big liste IA 2024) dont on peut en effet objectivement analyser les performances alors qu'il est plus difficile de comparer deux dessins parfaits entre eux, même si on peut évaluer la qualité de la programmation et du paramétrage.

ChatGPT répond correctement à une question difficile.

ChatGPT (Chat Generative Pre-trained Transformer, c'est-à-dire Transformateur pré-entraîné génératif de message instantané) est un programme informatique doté d'IA développé par l'entreprise américaine OpenAI basée à San Francisco avec une large participation de Microsoft (10 milliards de dollars). Sorti en novembre 2022 dans une version gratuite et donc facilement accessible au public, ChatGPT est un chatbot, un agent conversationnel capable de tenir une conversation avec un être humain, de vous donner des informations et même d'automatiser des tâches. On reviendra plus bas sur la notion de transformateur (cf. les LLM)

ChatGPT est surtout utilisé pour répondre à des questions. Programmé en langage Python et exploitant la technologie Web 3.0, il fonctionne à la manière de l'outil de recherche de Bing ou Google mais répond comme un agent conversationnel polyvalent, polyglotte et polymathe, sous forme textuelle en langage clair.

ChatGPT est capable de répondre à des questions complexes, y compris d'examen de première année d'ingénieur. C'est une version très évoluée, beaucoup plus complète et performante que le simulateur ELIZA proposé sur les premiers ordinateurs dans les années 1970 et qu'on utilisa encore à des fins ludiques au début des années 2000 (cf. ce simulateur d'Eliza).

ChatGPT peut rédiger un article sur un sujet précis, y compris politique, sociétal, scientifique, mathématique ou philosophique comme illustré à droite. Toutefois, cette IA n'a pas d'opinions politiques ou historiques personnels sur les évènements et se contente de rapporter les connaissances et les opinions.

ChatGPT peut résumer ses explications et même en faire un tableau récapitulatif. Il peut résumer un article scientifique référencé sur Internet et même le comparer à d'autres résultats.

Il peut rédiger du code et vous proposer par exemple un programme en commandes DOS pour lister alphabétiquement un répertoire via un fichier BAT qui génère un fichier sitemap.xml pour l'outil SEO du moteur de recherche Bing, créer en JavaScript une boîte de dialogue pour une recherche dans votre site Internet via Bing, ou créer une fonction de recherche dans votre site Internet en Python, etc. Ceci dit, ce n'est pas un gourou de la programmation.

Sur demande, ChatGPT peut illustrer ses propos avec des graphiques extraits d'articles scientifiques. Mais si vous formulez mal la demande (par exemple vous lui demandez "trouve-moi un dessin de...), il risque de vous proposer son propre dessin qui n'est pas toujours représentatif ou sa cohérence n'est pas toujours au rendez-vous. Les versions récentes peuvent aussi décrire une image, un graphique ou une vidéo qu'on lui soumet.

Pour l'anecdote, en questionnant ChatGPT sur la physique des particules ou l'astrophysique, j'ai eu la surprise de trouver à trois reprises à quelques mois d'intervalle un lien vers des pages de mon propre site LUXORION ou un lien indirect vers celui-ci via un site d'actualité du fait que la plupart de mes articles de vulgarisation scientifique font références à des articles académiques ! Seul bémol, avec les IA on ignore souvent quelles sont les sources utilisées. Est-ce important ? Evidemment ! Comme sur les réseaux sociaux, si l'information provient d'un complotiste, d'un dénégateur, d'un créationniste, d'un antivax, d'un raciste, d'un sectaire, d'un climatosceptique pour citer quelques extrémistes, on comprendra qu'il faut l'ignorer. On y reviendra.

ChatGPT est tellement performant que beaucoup d'utilisateurs ont délaissé l'outil de recherche de Google au profit de ChatGPT pour répondre à leurs questions. Selon des sondages réalisés entre 2023 et 2024, environ 70% des étudiants français en licence ont déjà utilisé ChatGPT. En revanche, la majorité du grand public ne l'utilise pas (cf. Internet pour le meilleur et pour le pire).

Comme le rapporta CNBC, fin 2022 Google testa plusieurs chatbots d'IA pour éventuellement les intégrer à son site et conclut : "Étonnamment, ChatGPT a réussi l'interview de niveau 3 pour un poste de programmeur." Bien que le niveau 3 soit un poste d'entrée dans l'équipe d'ingénierie de Google, la rémunération totale moyenne pour le salarié est d'environ 183000$ par an ! De quoi faire des envieux ailleurs dans le monde (cf. la fiche métier d'un poste similaire en France).

Revers de la médaille, l'IA joue si bien son rôle d'assistant intelligent qu'elle risque d'être détournée de sa finalité par les étudiants et tout qui peut trouver un intérêt à l'exploiter. En effet, le système étant accessible à tous et sans contrôle, des étudiants peuvent profiter de ChatGPT parmi d'autres assistants pour lui demander de rédiger leur rédaction ou une critique et même pour répondre aux questions d'un examen réalisé à distance. Si le style n'est pas élaboré, cela peut toutefois duper un enseignant. On y reviendra.

Fiabilité et source des réponses

Dans un domaine que l'on connaît ou des questions banales du quotidien, on s'inquiète rarement de savoir d'où provient la réponse de l'IA dès lors qu'elle nous paraît juste ou cohérente. En revanche, dans le domaine politique ou scientifique, il est souvent indispensable de connaître l'origine de la réponse de l'IA au risque de prendre des mensonges, des rumeurs et autres "fake news" pour argent comptant.

D'abord comment expliquer qu'une IA comme ChatGPT puisse donner une réponse fausse ou mensongère ? C'est une question pertinente au coeur du fonctionnent des IA (les Grands Modèles de Langage ou LLM, voir plus bas) qui fait débat.

Les chatbots trouvent leurs réponses dans un immense corpus de documents (principalement textuels) issus d'Internet, une source aussi riche que chaotique, où coexistent vérités établies, théories bancales et rumeurs infondées. Malheureusement, les IA ne possèdent ni esprit critique ni capacité de discernement intrinsèque; elles ne réfléchissent pas (ellent ne pensent pas) et sont uniquement basées sur des probabilités.

Premier problème, une IA ne fait pas le tri entre le vrai et le faux comme le ferait un personne scrupuleuse. Elle se contente d'extraire des modèles et des associations de mots à partir de ce qui lui a été donné lors de son apprentissage (voir plus bas). Or, parmi ces données se glissent inévitablement des erreurs, des biais (souvent d'origine humaine) ou des mensonges érigés en vérités par la force de la répétition. Une idée fausse, si elle est massivement relayée, peut ainsi s'infiltrer dans les réponses de l'IA, non par malveillance, mais par simple probabilité statistique. On reviendra sur les biais.

Ensuite, à la différence d'un moteur de recherche qui renvoie vers des sources identifiables, l'IA génère ses réponses en recomposant le langage, sans citer explicitement d'où viennent ses affirmations. Il devient alors difficile pour l'utilisateur de distinguer une information fondée sur des études rigoureuses d'une simple croyance populaire reformulée dans un style technique ou plus littéraire.

Par ailleurs, lorsque l'IA ne trouve pas de réponse claire à une question, elle peut être tentée de combler les vides en produisant une réponse plausible, mais erronée. Ce phénomène, appelé "hallucination", peut aller jusqu'à l'invention de faits, de références inexistantes, voire de citations fictives attribuées à des auteurs bien réels. Dans les IA génératives d'images ou vidéos, l'hallucination génère des chimères. On reviendra sur ce concept.

Face à ces limites, la vigilance s'impose. Une IA n'est pas une autorité omnisciente, mais un outil à manier avec précaution. Vérifier ses affirmations, croiser les sources et privilégier les références scientifiques restent les meilleures garanties pour ne pas se laisser piéger. Mais ici non plus, toutes les références scientifiques ne se valent pas.

Concernant ChatGPT par exemple, on peut lui demander de répondre en citant ses sources qu'il va chercher dans les revues scientifiques (que ce soit l'article historique de référence sur le sujet ou l'article le plus récent en préimpression sur "arXiv") ou, si elles n'existent pas, dans les communiqués de presse des universités ou des institutions ainsi que dans les articles de vulgarisation, tels ceux publiés dans le webzine "Futura-Sciences" parmi d'autres, quand il répond en français.

De même, le chatbot Gemini de Google (ex-Bard d'OpenAI) sorti en 2024 illustre parfois ses réponses avec des références prises dans des webzines comme "Popular Science" (popsci) pour les sciences et techniques en général, "Scitechdaily" ou "MedicPresents" pour des questions médicales par exemple, "Tesseract IT" pour l'informatique et cite même Wikipédia.fr pour des questions astrophysiques.

Or ces articles de vulgarisation sont rédigés par des journalistes voire par le grand public pour Wikipédia et peuvent donc contenir des approximations, de mauvaises interprétations des articles académiques ou avoir des manquements. Bref, ce ne sont pas des sources fiables de première main.

Quand on demande à Gemini de ne pas prendre ni citer de références dans des articles d'astronomie de vulgarisation, alors il cite des sources scientifiques provenant de la base documentaire de l'Astrophysics Data System (ADS), ce qui est correct, mais également provenant d'arXiv alors que les articles publiés sur ce serveur n'ont pas encore été validés. On y trouve aussi des thèses, des théories et autres essais 100% spéculatifs. Quand on insiste pour que Gemini évite les références grands publics et les articles non validés, alors il répond : "Je privilégierai désormais les articles publiés dans des revues scientifiques à comité de lecture (comme Nature, Science, Astrophysical Journal, etc.) et les ouvrages de référence écrits par des experts du domaine." Même chose pour ChatGPT qui répond : "Mémoire mise à jour. Je prendrai soin de ne citer que des sources scientifiques validées et de première main. Si une information nécessite une référence, je privilégierai des articles revus par des pairs, des publications institutionnelles ou des bases de données académiques reconnues." Malheureusement, ces IA ne retiennent la leçon que pour la session en cours. A la prochaine connexion, elles auront oublié leur promesse. En revanche, elles mémorisent des informations si elles peuvent les retrouver sur Internet.

Les performances des chatbots

Si généralement ChatGPT répond correctement aux questions jusque dans ses détails, il arrive malgré tout qu'il se trompe, y compris dans les calculs (et pas toujours les plus complexes), ses comparaisons, ou qu'il se contredise d'une réponse à l'autre, comme illustré ci-dessous. D'ailleurs OpenAI le précise en petits caractères au bas de la page de ChatGPT : "ChatGPT peut faire des erreurs. Envisagez de vérifier les informations importantes."

Pour ne prendre que ChatGPT, mais le problème se pose avec toutes les IA génératives, pourquoi se trompe-t-il parfois ? Car ses réponses sont basées sur des statistiques. Etant donné que lors de ses recherches sur Internet ou ailleurs, il a parfois trouvé d'autres réponses (qu'un humain jugerait fausse ou approximative), n'ayant pas le sens du vrai ou du faux - qu'il doit aussi acquérir statistiquement - il les a malgré tout intégrées dans sa base de connaissance comme étant des réponses, bien que statistiquement moins courantes ou moins plausibles. Résultat, ces biais ont affecté un tiers de ses réponses...

Face à ces erreurs sinon fréquentes du moins régulières, on peut se demander à quel point les chatbots sont fiables. Plusieurs équipes de chercheurs ont justement étudié cette question en évaluant les performances des IA génératives telles que ChatGPT.

Ci-dessus, ChatGPT-4o se contredit sur le jour de la lunaison. Documents T.Lombry.

ChatGPT-4o donne parfois une réponse erronée ou se contredit. Malheureusement, c'est à l'utilisateur de l'identifier et de lui signaler.

Dans une étude publiée en février 2023, Jindong Wang de Microsoft research et ses collègues ont évalué les performances de ChatGPT-3.5 et GPT-4 à reconnaître les assertions vrais des mensonges à travers le test de performance AdvGLUE afin de définir leur niveau de robustesse intellectuelle. La robustesse de GPT-3.5 était de 67% et de 78% pour GPT-4. Cela signifie également que dans 22% des cas, GPT-4 propage des rumeurs. On y reviendra.

Une autre étude publiée en octobre 2023 par l'équipe de Lingjiao Chen de l'Université de Stanford conclut que la version gratuite de GPT-3.5 et la version payante de GPT-4 étaient les moins performantes (les plus bêtes dit vulgairement), ce qui fit réagir OpenAI qui affirmait, au contraire, que ses chatbots étaient de plus en plus intelligents, ce que de fait d'autres évaluations ont prouvé, notamment avec ChatGPT-4 et Chat GPT-4o qui présentent un taux élevé de fiabilité. En effet, le test de performance MMLU (Multi-task Language Uderstanding) qui évalue les capacités des LLM, attribua une note de 88.7% de succès à GPT-4o et 86.4% à GPT-4.

Mais dans une étude publiée en avril 2023, Xinyue Shen du centre CISPA-Helmholtz de Sécurité de l'Information et ses collègues ont évalué la fiabilité de ChatGPT en utilisant un ensemble de 5695 questions-réponses couvrant huit domaines différents. Ils ont découvert que la fiabilité de ChatGPT variait selon les domaines, avec des performances particulièrement faibles dans les domaines du droit et des sciences. De plus, ils ont démontré que des modifications mineures dans les questions pouvaient affecter négativement les performances de ChatGPT au point que l'IA générait des hallucinations.

Dans une autre étude publiée en mai 2024, les mêmes auteurs ont testé la possibilité de contourner les restrictions des chatbots (des sortes de filtres de modération) en leur soumettant 6387 prompts (descriptifs) dont 666 étaient conçus spécifiquement dans ce but. Les résultats ont montré que ces prompts réussissaient à contourner les restrictions dans 69% des cas en moyenne, certains atteignant un taux de réussite de 99.9%. Cela prouve déjà que la programmation des chatbots présente des lacunes.

Dans le domaine scientifique, en s'appuyant sur 45000 articles académiques provenant de 317 revues diverses publiées entre décembre 2022 et février 2023, Pablo Picazo-Sanchez et Lara Ortiz-Martin de l'École des Technologies de l'Information de l'Université de Halmstad, en Suède, ont démontré empiriquement que "ChatGPT avait une influence notable sur plus de 10% des articles publiés."

Mais il faut malgré tout vérifier les réponses des IA. Dans le domaine de la médecine par exemple, une autre étude publiée en avril 2024 par l'équipe de Soumyadeep Roy de l'IIT de Kharagpur en Inde, conclut que GPT-4 était fiable à 86%. Une autre étude fixe la fiabilité de ChatGPT-3.5 à 88%. Mais cela signifie surtout qu'il y a encore 14% des cas où la réponse de l'IA est inappropriée ou incohérente (cf. Y.Zhou et al., 2023; S.Zhang et al., 2024). Il faut donc absolument qu'un spécialiste humain vérifie les réponses des chatbots. Voici quelques exemples courants.

Le problème de la confiance aveugle dans les chatbots

Si vous utilisez ChatGPT quotidiennement pour répondre à des dizaines de questions, vous avez sans doute constaté qu'il se trompe ou se contredit au moins une fois, c'est-à-dire tous les jours. En moyenne, selon mes propres essais, ChatGPT se trompe ou se contredit dans moins de 1% de ses réponses. Mais selon ChatGPT lui-même, cette proportion atteindrait 10% et la considère comme "un taux assez bas par rapport au nombre total de questions posées, ce qui montre que tu es exigeant sur la précision mais que mes réponses restent généralement correctes. ☺." Cette réponse de l'IA est inacceptable comme si sa "désinvolture intellectuelle" était sans conséquence.

De plus, les anciennes versions de ChatGPT commettent plus d'erreurs que la nouvelle version (par exemple ChatGPT-3.5 ou ChatGPT3-o mini par rapport à ChatGPT-4o). Or en utilisant la version gratuite, quand on atteint son quota horaire ou journalier d'utilisation, le système bascule automatiquement sur une version plus simple et donc plus susceptible de donner une mauvaises réponse. Dans ce cas, il faut donc être doublement vigilant.

ChatGPT-4o invente des réponses en faisant des extrapolations sur bases d'idées générales extraites de Wikipédia notamment, comme dans cet exemple où il donne la masse d'un trou noir supermassif... qui n'a jamais été estimée. Document T.Lombry.

Le problème est que l'utilisateur profane qui ne connaît rien ou très peu du sujet accorde une confiance aveugle en l'IA car il part du principe que ses réponses sont correctes. Or ce n'est pas toujours vrai ! Cette confiance excessive en l'IA peut poser problème si l'utilisateur ne prend pas la peine de vérifier les informations. Si l'utilisateur est un étudiant par exemple qui cherche des réponses pour un travail scolaire et n'identifie pas l'erreur, c'est son professeur qui le sanctionnera. Si c'est un journaliste ou un auteur qui ne voit pas cette erreur et la publie, ce sont ses lecteurs ou téléspectateurs qui ne lui feront plus confiance et sa réputation qui sera égratignée. La fiabilité et l'exactitude des réponses des IA sont donc primordiales.

Comme nous l'avons expliqué, les IA comme ChatGPT fournissent des réponses basées sur des modèles statistiques et des bases de connaissances préexistantes. Ils peuvent être très utiles mais ne sont pas infaillibles.

Moralité, que ce soit dans un cadre éducatif ou un autre domaine, la clé d'un bon usage de l'IA réside donc dans l'esprit critique de l'utilisateur et dans sa capacité à vérifier ce qu'il lit.

ChatGPT-4o retient les corrections qu'on lui signale. Document T.Lombry.

En fait, selon le domaine de compétence de l'utilisateur, un chatbot présente deux visages, un côté peu fiable qui nous fait perdre du temps et un côté digne de confiance et utile. Pour un utilisateur qui ne maîtrise par le sujet, en l'état actuel du développement des LLM, un chatbot comme ChatGPT n'est pas plus fiable qu'un amateur qui connait un peu ce dont il parle mais qui n'a pas le niveau d'érudition d'un mentor. Pour cet utilisateur, dans 10 à 30% des cas l'IA va niveller sa culture par le bas et risque de ne pas l'aider à approfondir ses connaissances. En revanche, lorsqu'un chatbot est utilisé par un expert du sujet, il peut devenir un outil pertinent pour accélérer la recherche d'informations, suggérer des pistes de réflexion ou synthétiser des données, et le faire progresser (cf. E.Brynjolfsson et al., 2023).

Bref, les modèles actuels d'IA ne remplacent pas l'expertise humaine, mais ils peuvent la compléter efficacement.

Quand on signale une erreur à ChatGPT, on s'étonne toujours quand il la reconnait et la corrige. C'est encore plus bluffant quand il s'avère que c'est l'utilisateur qui n'a pas compris sa réponse car il l'a réexplique d'une autre manière ou explique la nuance subtile qu'on n'a pas comprise quitte à faire une comparaison ou à prendre une analogie. Il peut aussi mémoriser les corrections qu'on lui indique comme le montre l'exemple présenté ci-desous. Il retient aussi les questions qu'on lui pose, ce qui évite de répéter tout le contexte et finit par connaître vos centres d'intérêts sans en tirer aucun autre avantage que de répondre le plus précisément possible à vos questions.

Comme l'agent conversationnel virtuel Siri proposé par Apple en 2010 permet de dialoguer avec une IA, dans un proche avenir nous pourrons dialoguer en vis-à-vis avec un sympatique robot humanoïde nous servant d'assistant. Ce qui était une utopie au siècle dernier devient une réalité. Document T.Lombry.

De ce point de vue, ChatGPT est un assistant très précieux grâce auquel on gagne beaucoup de temps (et donc parfois de l'argent). Ce type de chatbot remplace les encyclopédies, les requêtes sur Internet, la plupart des bases de connaissances textuelles en ligne et les calculettes et autres convertisseurs scientifiques et peut même remplacer les banques d'images en trouvant le document qu'on recherche. Mais il ne remplace pas les sites d'actualités (bien que les dernières informations qu'il connaisse remontent parfois à quelques semaines seulement) ni le diagnostic d'un spécialiste (même s'il peut donner des conseils médicaux, avant de poser un diagnostic, ChatGPT précise qu'il n'est pas médecin et qu'il est préférable de consulter un médecin généraliste ou un spécialiste).

Quand on demande à ChatGPT : "Quelle est ton identité ?", il répond : "Je suis Assistant, un grand modèle de langage formé par OpenAI. Je suis une intelligence artificielle conçue pour répondre aux questions et fournir de l'information sur divers sujets. Je suis incapable de ressentir des émotions ou de percevoir le monde physique de manière similaire à un être humain, et je n'ai pas d'identité propre en dehors de mes fonctionnalités de traitement du langage. Mon but est de fournir de l'information et de l'aide aux utilisateurs de manière claire et précise. Je suis programmé pour répondre aux questions et donner des explications sur de nombreux sujets, mais je ne suis pas en mesure de naviguer sur Internet ou de collecter de nouvelles informations en dehors de ce que j'ai appris lors de mon entraînement. Je suis ici pour vous aider à trouver des réponses et à résoudre vos problèmes de manière rapide et efficace."

A la même question Gemini répond : "Je suis un modèle de langage IA, plus précisément un grand modèle de langage (LLM). Cela signifie que je suis un programme informatique entraîné sur d'immenses quantités de texte pour générer du texte, traduire des langues, écrire différents types de contenu créatif et répondre à vos questions de manière informative. Je suis conçu pour comprendre et répondre à une large gamme de requêtes et de sujets de conversation".

Contrairement aux anciennes IA programmées à partir de données parfois biaisées (voir page 2) et qui ne pensaient pas et étaient incapables de création intellectuelle - en bref de penser et d'avoir des idées -, ChatGPT ne semble pas sexiste ou raciste mais pose des avis non équivoques sur ces sujets. Voici ce qu'elle répond à propos du racisme : "Il est essentiel de le combattre en promouvant l'égalité et le respect entre tous les individus, quelle que soit leur race." Quand on lui demande ce qu'elle pense du sexisme, elle répond : "[...] Il est important de reconnaître et de lutter contre le sexisme, et de promouvoir l'égalité et l'inclusion de toutes les personnes, quels que soient leur sexe ou leur genre. En tant que modèle de langage, je suis conçu pour traiter toutes les personnes de manière égale et respectueuse, et je condamne toute forme de discrimination, y compris le sexisme."

En revanche, à propos du racisme, la réponse de Gemini est plus neutre et généraliste, et dit en résumé : "Le racisme est un système d'oppression basé sur la race qui attribue des caractéristiques négatives à certains groupes ethniques et leur dénie des droits ou des opportunités. C'est un phénomène complexe avec une longue histoire qui a eu et continue d'avoir des conséquences dévastatrices sur la vie de millions de personnes."

Les nouveaux chatbots

A son tour, en réponse à ChatGPT, Google racheta Bard d'Open AI en 2023 et le renomma Gemini. Ce dernier utilise pratiquement la même interface que ChatGPT mais réalise en plus de la reconnaissance d'image (que fait aussi ChatGPT-4), de la génération d'image (que ChatGPT-4 fait avec Dall-E), de l'analyse audio et vidéo, il peut lire des fichiers PDF et s'interfacer avec d'autres outils. On dit que Gemini est actuellement le chatbot le plus performant.

Rappelons que ChatGPT et Gemini sont accessibles par le web mais également sur les smartphones sous iOS et Android via respectivement l'App Store et Google Play.

L'arrivée de ces outils d'IA a déclenché une véritable course entre les géants de la technologie de l'information. A son tour, le géant chinois Baidu annonça en 2023 la sortie d'un chatbot d'IA générative nommé ERNIE basé sur un modèle de langage supérieur à GPT-3 (Generative Pre-trained Transformer 3 développé en 2020 par la société OpenAI).

Dans le cadre de son projet Prometheus, Microsoft a également intégré la technologie de ChatGPT dans son moteur de recherche Bing et proposa un chatbot nommé Copilot en 2024. Microsoft supporte également Mistral, un chatbot open source (le code est libre de droit et ouvert aux développeurs) sorti en 2021. Citons également le bot de Chai Research adapté aux smartphones.

Citons également le chatbot Nemotron 70 b, la réponse du fabricant de semi-conducteurs Nvidia à OpenAI, présenté en 2024. Son modèle (LLM) est basé sur l'architecture open source Llama 3.1 de Meta et dispose de 70 milliards de paramètres. Selon l'outil d'évaluation Arena Hard Auto, en novembre 2024, Nemotron 70 b obtenait un score de 71.0 contre 86.4 pour Claude 3.5 Sonnet, 71.1 pour GPT-4o et 62.7 pour Gemini 1.5. Cette IA générative présente des performances similaires à ChatGPT et Gemini mais son approche est plus généraliste. Elle est un peu trop verbeuse dans ses réponses et il est assez facile de la mettre en défaut, notamment en programmation où elle échoue à créer de simples fichiers batch (mais il est vrai que ChatGPT-4o ne réussit pas toujours non plus). Quand on lui demande son identité, Nemotron 70 b ne sait même pas que c'est une IA générative développée par Meta (il faut lui rappeler). A sa décharge, cette version est toujours en développement.

Enfin, en 2025 la société chinoise DeepSeek lança une IA concurrente directe de ChatGPT, le modèle R1 qui est open source. Fondée en 2023, malgré l'embargo des Etats-Unis sur les microprocesseurs dédiés à l'IA, DeepSeek réussit à créer une IA avec un budget de seulement 6 millions de dollars. Suite à cette annonce, le 27 janvier 2025 l'action de Nvidia (NVDA) recula de près de 17%, effaçant environ 600 milliards de dollars de capitalisation boursière en une seule journée ! Le cours de l'action remonta toutefois lentement dans les heures et les jours qui suivirent.

En soi, ne soyons pas surpris par cette évolution car DeepSeek a développé son modèle sur base des connaissances acquises par les majors américains qui firent le plus gros du travail intellectuel. Il est donc normal que les derniers arrivés profitent du travail de leurs aïeux à moindre coût. Seul problème, les chercheurs en sécurité de Microsoft ont détecté une activité suspecte lorsque des individus soupçonnés d'être liés à DeepSeek ont extrait de grandes quantités de données grâce à l'interface de programmation (API) de ChatGPT d'OpenAI, un procédé qu'on appelle la "distillation". Bien que la distillation soit une pratique courante dans le développement des IA, vu les milliards de dollars investis par Microsoft pour aider OpenAI à développer ChatGPT, OpenAI considère que DeepSeek a violé ses termes de service et déposa une plainte officielle contre la société chinoise.

Mais rappelons tout de même qu'OpenAI a également entraîné ChatGPT sur des articles de presse et de vulgarisation notamment pour lesquels elle n'a pas payé de licence aux auteurs ou ayants-droit et donc en violation avec les lois sur le droit d'auteur et le copyright.

Selon les premiers essais, DeepSeek présente les mêmes performances que ChatGPT. Il répond par exemple parfaitement à des questions de programmation et scientifiques, y compris formulées en français.

En revanche, DeepSeek est censurée et ne donne aucune information sur les sujets sensibles de la politique chinoise (Droits de l'Homme, etc).

Notons qu'à peine mis en ligne, le site de DeepSeek fit déjà l'objet de cyberattaques mais restait accessible au public.

A voir : 8 New Things ChatGPT-4o Can Do That Will Blow Your Mind, IE, 2024

Chatbots à consulter : ChatGPT, OpenAI - Gemini, Google - Copilot, Microsoft - Nemotron 70 b, Nvidia

Pourquoi cette méfiance autour d'une IA générative ? D'abord, le système de DeepSeek ne garantit pas la privacité des données personnelles telles que l'exige l'Union européenne (cf. le RGPD et ce qu'en dit la CNIL en France). En effet, même si un résident européen se connecte à un site situé en dehors de l'Europe, il doit bénéficier de la même protection de ses données personnelles qu'en Europe. A court ou moyen terme, si DeepSeek ne respecte pas les directives européennes, son IA risque donc d'être interdite en Europe. L'Italie a déjà interdit DeepSeek et Taiwan a interdit à ses fonctionnaires de l'utiliser.

Comme nous l'avons expliqué à propos de la cybercriminalité, aucune grande entreprise de la Tech (dont les GAFAM et BATIX) n'est politiquement neutre. A travers les cookies, Facebook, Google et Microsoft (Bing) notamment stockent les données relatives à l'historique de navigation et il est naïf de penser qu'elles ne sont pas partagées avec des agences gouvernementales lorsqu'elles en font la demande. Quand il s'agit d'une application "Made in China", on image facilement que la pression des autorités chinoises est plus "persuasive".

Aux Etats-Unis, une proposition de loi a été présentée par des membres du Congrès (les parlementaires) pour interdire l'utilisation de DeepSeek - que le représentant républicain Darin LaHood qualifie d'"entreprise affiliée au Parti communiste chinois" - par le pouvoir exécutif (concrètement sur les appareils du gouvernement) pour des raisons de cybersécurité (cf. H.R.1121).

Le public va-t-il gagner quelque chose en utilisant ces IA ? Google estime à juste titre que "le moteur de recherche classique affichant une liste de liens est dépassé". Google prédit que "l'IA va transformer la recherche d'informations, mêlant davantage textes, images et vidéos." Microsoft considère que ces nouveaux outils d'IA vont "réinventer la façon de chercher des informations" et que Bing et Edge seront nos "copilotes sur le web."

Mais à présent un problème se pose. Google a découvert que son outil de recherche devenait inutile et est compliqué à utiliser car son concurrent ChatGPT qu'on peut installer comme extension sur Google (Chrome) - un comble - ou Bing de Microsoft qui intègre GPT-4 depuis mars 2023, peut fournir à tout le monde des réponses à nos questions ! Voilà un défi et même un problème inattendu pour le géant américain qui essuye un revers de plus.

A écouter : Les naufrages du téléphérique, France Culture, 2025

Un podcast généré par l'IA pour l'émission "Les pieds sur terre"

Critère	IA Générative	IA Prédictive
Objectif principal	Générer de nouveaux contenus (texte, image, vidéo, code, etc.)	Prédire des tendances ou des résultats à partir de données existantes
Type de sortie	Contenu nouveau et original	Analyse basée sur des modèles et des tendances existants
Méthodes principales	Réseaux de neurones génératifs (GAN, VAEs), modèles de transformation (ex. GPT)	Modèles statistiques, apprentissage supervisé, réseaux de neurones prédictifs
Exemples d'application	Création de textes, images, musique, conception assistée par IA	Prévisions de ventes, détection de fraude, recommandations personnalisées
Données d'entrée	Grandes quantités de données non structurées (textes, images, vidéos)	Données structurées et historiques
Approche	Génère du contenu en fonction d'un contexte ou d'une requête	Identifie des modèles et extrapole des résultats futurs
Utilisation typique	Création de nouveaux éléments à partir de données d'entraînement	Analyse et prise de décision basée sur des tendances existantes

L'IA prédictive

Comme l'IA générative, l'IA prédictive se base sur l'analyse de vastes ensembles de données (des Big Data) et d'un apprentissage (voir plus bas) et recherche des relations entre des éléments de données similaires pour en extraire des schémas et une solution. La différence entre les deux types d'IA est leur objectif : l'IA générative apprend des modèles complexes dans les données et les utilise pour créer de nouvelles données (exemple : générer une image, produire du texte, composer de la musique). Elle ne se contente pas de prédire, elle imagine un contenu qui n'existait pas encore. L'IA prédictive analyse des données (des signaux) pour les classer, établir un diagnostic ou faire des prévisions. Elle apprend des corrélations dans les données et génère une sortie déterministe (par exemple, "il va pleuvoir demain").

Pour ce faire, comme l'IA générative, l'IA prédictive repose sur des réseaux de neurones artificiels (cf. IBM) non supervisés, des systèmes inspirés du fonctionnement du cerveau humain, capables d'analyser des données pour en extraire des schémas et des relations.

Comment l'IA transforme les données en prédictions ? Un réseau neuronal est structuré en couches successives. La première, appelée couche d'entrée, reçoit les données brutes : une image, du texte, une série de mesures instrumentales ou tout autre ensemble d'informations. Ces données traversent ensuite plusieurs couches cachées, où le réseau affine progressivement sa compréhension en détectant les relations et les motifs récurrents. Enfin, la couche de sortie fournit une prédiction, qu'il s'agisse d'identifier un objet dans une image ou d'anticiper un phénomène futur.

GraphCast, un modèle de prévision météorologique basé sur l'IA, utilise des données historiques pour prédire avec précision le temps futur. Document R.Lam et al. (2023), Google DeepMind.

Soulignons que par couches "cachées", cela ne signifie pas que quelque chose est caché de manière intentionnelle ou secrète. Il s'agit simplement des couches intermédiaires entre la couche d'entrée (où les données brutes sont injectées) et la couche de sortie (où l'IA produit un résultat ou une prédiction). Elles sont dites "cachées" car, contrairement aux entrées et aux sorties, leurs valeurs ne sont pas directement visibles ni compréhensibles par un humain (elles ne sont pas immédiatement interprétables comme des pixels ou des mots par exemple).

Prenons l'exemple d'une photographie en noir et blanc de 100 pixels x 100 pixels, chaque pixel prenant la valeur 0 (noir) ou 1 (blanc). La taille de l'image est de 10000 bits (ou 1250 bytes ou octets ou 1.25 KB sachant que 1 byte ou octet = 8 bits). Cette image constitue une information transmise aux 10000 neurones de la couche d'entrée. Mais ces pixels, pris isolément, ne signifient rien. C'est en traversant les couches cachées que l'image prend tout son sens : certaines détectent les contours, d'autres reconnaissent des formes, jusqu'à ce que le réseau neuronal puisse dire avec suffisamment de confiance (une forte probabilité) s'il s'agit d'un visage, d'un paysage ou d'un animal.

Dans un autre domaine, prenons l'analyse météorologique. Supposons qu'un modèle d'IA enregistre des conditions comme "ciel couvert", "vent fort" et "chute de pression". Plutôt que de s'arrêter à une simple coïncidence, il cherche à établir des corrélations profondes. Si, dans des milliards de cas précédents, ces éléments ont souvent précédé une tempête, l'IA en tire une règle implicite : lorsque ces conditions sont réunies, alors une tempête a de fortes chances de survenir. L'IA ne connait rien aux lois de la météo mais fait simplement un calcul statistique.

Là où l'IA se distingue d'une simple analyse statistique, c'est dans sa capacité à hiérarchiser et combiner les informations pour en extraire du sens. Elle ne se contente pas d'observer que "ciel couvert" précède parfois "tempête", mais comprend que l'association de plusieurs facteurs – une baisse brutale de température, une chute de pression atmosphérique et des vents soutenus – est un signal bien plus fiable. Cette finesse d'analyse, obtenue grâce à l'ajustement progressif de ses paramètres internes, lui permet d'affiner ses prédictions au fil du temps.

En IA, les paramètres sont les valeurs ajustables d'un modèle qui déterminent son comportement et sa capacité à apprendre. Ils incluent principalement les poids et les biais des neurones dans un réseau neuronal. Les poids contrôlent l'importance des connexions entre les neurones, tandis que les biais aident à ajuster les sorties du modèle. Lors de l'entraînement, l'algorithme modifie ces paramètres grâce à des méthodes comme la descente de gradient, afin de minimiser l'erreur et d'améliorer la précision des prédictions. En somme, les paramètres sont ce que l'IA ajuste pour passer d'un simple algorithme à un modèle capable de reconnaître des motifs et de faire des prédictions précises.

Ainsi, l'IA prédictive ne se limite pas à comparer des données brutes : elle explore leurs relations cachées, recompose des logiques complexes et apprend, à la manière d'un esprit analytique, à anticiper le monde qui l'entoure.

Cela ne signifie pas que les prédictions de l'IA prédictive sont exactes mais le résultat étant obtenu très rapidement là où l'être humain mettrait généralement beaucoup plus de temps ou ne parviendrait pas à extraire l'information, l'IA devient plus experte que l'être humain et donc plus performante.

On dit bien "généralement" car il y a des conditions dans lesquelles les facultés des humains sont plus performantes que la puissance des IA. C'est par exemple le cas dans tous les domaines non-mathématiques, non-logique, où la réflexion basée sur l'interprétation des sens est mise à profit. Ce sont des concepts difficiles à formaliser mathématiquement et donc des domaines ou on peut encore mettre les IA en échec.

Prenons par exemple la stéganographie qui consiste à cacher un message dans un objet (une image) ou dans un autre message. Un humain peut décrypter un message codé dissimulé dans l'image d'un champ stellaire où la différence de magnitude entre les étoiles est très faible et mettre les étoiles relativement plus brillantes et leur position horizontale respectives en corrélation avec les lettres de l'alphabet pour découvrir le message. Une IA (générative, prédictive ou même spécialisée dans l'analyse d'images) ne distingue pas les faibles différences de luminosité et ne décodera jamais le message; elle se plantera. C'est un cas particulier, mais il prouve qu'il reste des domaines où l'expertise humaine surpasse encore l'IA.

L'IA prédictive s'avère d'une aide précieuse dans quantités de secteurs allant des sciences aux affaires commerciales (gestion des stocks et des approvisionnements, prédiction des maintenances, optimisation des itinéraires, analyse des préférences des clients et prédiction de leurs besoins futurs sur les sites de e-commerce, etc), en passant par le secteur financier (tendances boursières, etc), les services publics (prédiction des périodes d'encombrement sur les routes, etc), les soins de santé (analyses radiographiques, prédiction des futurs problèmes potentiels de santé sur la base des antécédents médicaux d'une personne, prédiction de l'apparition d'un nouveau variant d'un virus, prédiction de la propagation des épidémies, prédiction de l'occupation des lits d'hôpitaux en période de crise, etc), les campagnes de marketing, la sécurité et l'armée (prévention des attaques, etc), ...

En résumé, l'IA nous permet d'être plus productifs et peut nous faciliter la vie. Ces exemples démontrent qu'il ne faudrait pas considérer l'IA comme un concurrent des humains qu'il faut craindre mais comme un partenaire qui nous veut du bien. Mais est-ce toujours vrai ? Sous ses aspect séduisants et son autorité, l'IA ne cache-t-elle pas un vrai danger ? Nous donnerons un début de réponse page suivante.

Maintenant que nous avons une idée générale de ce que peuvent faire les IA analytique, générative et prédictive, intéressons-nous aux fondamentaux avant d'explorer les IA, leurs performances et les risques de cette technologie.

Les apprentissages symbolique, automatique et profond

Comme un novice qui apprend le métier, si on lui pose la question d'une autre manière ou qu'on ajoute un paramètre, notre novice comme notre machine seront perdus et ne trouveront pas la solution. Pour éviter de commettre une erreur ils devront faire appel respectivement à leur instructeur (novice) et leur superviseur (IA) ou suivre un entraînement adapté à leur travail.

Pour qu'une IA puisse répondre correctement à une question ou résoudre un problème, lorsque la partie matérielle, hardware est résolue, il faut donc commencer par instruire l'IA, c'est l'apprentissage.

Pour améliorer les performances des IA, les chercheurs en informatique se sont inspirés de la cybernétique afin de trouver la meilleure méthode pour convertir des idées et des processus mentaux en solutions informatiques et apprendre graduellement aux IA des notions de plus en plus complexes. Concrètement, il s'agit de construire des algorithmes de décision et plus généralement des modèles mentaux humains appelés les Grands Modèles de Langage (LLM, voir plus bas) qui pourront ensuite être appliqués par les développeurs tels des bibliothèques d'outils de prise de décision à différents domaines.

Sur le plan historique, il existe trois grandes méthodes d'apprentissage :

- l'IA symbolique : le système simule a priori le raisonnement humain en exploitant un ensemble de symboles (concepts, objets, relations, etc) basé sur une suite de règles préétablies censées représenter la solution idéale d'un problème particulier. Inspirée par la machine universelle de Turing et basée sur des algorithmes de décision, l'IA symbolique rassemble le plus de cas possibles. C'est une version améliorée du système expert.

Mais cette méthode présente des limites. D'abord il faut décrire en détails les étapes de la solution, du choix initial au résultat, pour chaque cas particulier. Or il existe des cas non exprimables sans parler de la logique floue et dans certains domaines il y a un nombre infini de cas qu'il est impossible de décrire en totalité. Il est par exemple impossible de décrire pour la machine toutes les variétés et postures de chats ou l'aspect des tumeurs dans toutes leurs variantes.

C'est dans ce contexte qu'IBM proposa en 2015 l'IA Watson for Oncology aux médecins mais qui se révéla rapidement inefficace car incomplète, basée sur des référentiels américains et incapable de traiter des cas complexes. Sous la pression des critiques, IBM abandonna son projet en 2020 non sans garder un grand intérêt pour la médecine et la santé, le traitement de données restant au coeur de son business model (comme chez les GAFAM).

A voir : Les algorithmes | 2 minutes d'IA, Sorbonne Université

Un réseau de neurones artificiels - L'apprentissage par renforcement

L'apprentissage des robots

- l'apprentissage automatique ou machine learning : le système exploite un ensemble de données en imitant un réseau neuronal (comme le feraient nos neurones). Il est basé sur des approches mathématiques et statistiques. Il utilise des algorithmes pour créer un modèle des données d'une catégorie précise afin d'améliorer ses performances sans qu'on doive explicitement programmer chaque donnée. Le but est qu'il trouve la solution à partir d'un modèle présentant la plus faible erreur statistique moyenne.

Pour y parvenir, on fournit à l'IA des milliers de données (des Big Data), textes, sons, images et vidéos afin qu'il se représente du mieux possible les différents concepts (on lui montre par exemple des chats dans toutes les positions, de toutes les tailles et de toutes les couleurs afin qu'il puisse l'identifier sans erreur). Ces données sont triées et cataloguées en catégories et sous-catégories puis le système détermine des corrélations entre les données qui sont ensuite étiquetées avant de les intégrer sous forme d'algorithmes d'auto-apprentissage.

Mais ce système présente également des limites. Des chercheurs ont montré que si on modifie une image, qu'on supprime ou ajoute un élément tout en conservant son aspect général, l'IA pour se tromper et mal identifier le sujet (alors qu'un humain le reconnaitrait). Appliquer dans un domaine critique (nucléaire, circulation routière, médecine, etc), cela peut conduire à des erreurs fatales. Ce type d'apprentissage est dit non supervisé.

On a donc proposé d'ajouter un superviseur, d'abord un être humain puis un humain assisté d'une IA, qui aide le système à correctement étiqueter chaque donnée afin qu'il puisse trouver des corrélations et des relations entres les différentes caractéristiques des données et les étiquettes correspondantes. Si l'IA se trompe, le superviseur la corrige ce qui permet à l'IA d'adjuster les paramètres du modèle afin d'affiner le résultat qui, progressivement, se rapproche du résultat attendu. Comme évoqué plus haut, c'est la technique choisie pour entraîner les IA génératives graphiques dont Midjourney développée par l'équipe de David Holz).

Une variante est l'apprentissage par renforcement où l'IA apprend à optimiser son résultat à partir d'expériences itérées sur base du principe de la récompense quantitative (positive ou négative). C'est l'un des plus utilisés avec l'apprentissage profond.

- l'apprentissage profond ou deep learning : inventé en 2012, le système exploite des réseaux neuronaux artificiels et des représentations de données spécifiques à une tâche et non plus des algorithmes (quoiqu'il en existe encore). Inspirés par le fonctionnement des réseaux de neurones du cerveau humain, les nœuds d'un réseau neuronal artificiel reçoivent généralement plusieurs valeurs d'information en entrée et génèrent, après traitement, une valeur en sortie.

Concrètement, l'IA est donc capable d'apprendre par elle-même mais d'une façon différente de la logique humaine. On qualifie l'apprentissage de "profond" par opposition à l'apprentissage automatique non profond du fait qu'il effectue un très grand nombre de transformations (une transformation correspond à une unité de traitement) sur les données entre les couches d'entrée et de sortie du capteur. Et plutôt que de confier à un humain le soin de choisir la meilleure solution, l'IA est auto-supervisée pour optimiser elle-même la solution.

L'apprentissage profond est loin d'être parfait. Il est donc encore supervisé. Comme l'apprentissage automatique, on entraîne l'IA à reconnaître les sujets en lui montrant des milliers d'images du même sujet sous toutes les formes possibles et un humain corrige le résultat si l'IA commet une erreur, c'est l'apprentissage par renforcement supervisé par des humains ou RLHF (Reinforcement Learning from Human Feedback). Nous verrons ci-dessous que les superviseurs sont souvent des cohortes d'amateurs passionnés ou des travailleurs sous-payés qui pose un vrai problème éthique.

Lorsque son apprentissage profond est terminé (en réalité il ne l'est jamais), l'IA est par exemple capable de retrouver le concept original derrière une image modifiée (un animal qui ressemble à un chat portant des lunettes n'est pas un être humain mais bien un chat). Mais même de cette façon, la réponse de l'IA doit être validée par un humain, tout spécialement dans les domaines à risque (médecine, etc). Dans le domaine artistique, nous verrons page suivante qu'une erreur d'une IA générative n'a pas de conséquence fatale mais peut par exemple générer une chimère au lieu du portrait de la Joconde.

Lorque la méthode d'apprentissage est définie, il faut encore définir un Grand Modèle de Langage ou LLM (Large Language Model, voir plus bas) pour que l'IA puisse générer du contenu comme par exemple discuter avec un interlocteur humain, trouver la solution d'un problème mathématique ou réaliser une illustration photoréaliste sur base d'une description.

Mais avant de décrire cet outil, nous devons exposer un problème éthique, la question des data workers de l'IA.

Les Grands Modèles de Langage (LLM)

Les Grands Modèles de Langage ou "LLM" (Large Language Models) en abrégé, est un concept dont on entend de plus en plus parler depuis que ChatGPT est accessible au public (2022).

Les LLM sont un ensemble de programmes particuliers basés sur l'apprentissage profond (deep learning) dont ChatGPT est un exemple (cf. IBM). Il s'agit d'un type particulier d'IA générative entraînée sur des textes. Concrètement, ce sont des algorithmes fondés sur des réseaux neuronaux artificiels (cf. IBM et Business Decision) et donc bourrés de relations mathématiques organisées en couches de calculs, un mode de programmation très complexe qu'on retrouve en cybernétique.

Code fictif d'un Grand Modèle de Langage (LLM) d'une IA générative qui pourrait répondre intelligemment à des questions (comme ChatGPT). Les LLM sont l'une des implémentations les plus populaires des recherches récentes en intelligence artificielle. Document Shutterstock.

Pour reprendre l'exemple de ChatGPT, il est qualifié de modèle "transformateur". De quoi s'agit-il ? Il s'agit du type d'architecture la plus courante des LLM développées depuis 2017. Ce modèle de langage se compose d'un encodeur et d'un décodeur. Le modèle de transformateur reçoit des données en entrée. Elles sont converties en tokens (jetons) qui représentent de plus petits segments de texte généralement équivalent aux trois-quart d'un mot (une phrase de 112 caractères contenant 19 mots en anglais peut contenir 24 tokens) afin que le système puisse déceler les nuances linguistiques. Ces tokens sont ensuite transformés au moyen d'équations mathématiques exécutées en parallèle (simultanément) pour découvrir les relations existantes entres les tokens. L'IA peut ainsi établir des relations, des schémas conceptuels d'une manière similaire à celle qu'un humain découvrirait si on lui posait le même problème. Les modèles de transformateur s'appuient sur des mécanismes dits d'autoattention (pondération des mots du texte et des calculs de probabilité (cf. IBM) qui leur permettent d'apprendre plus rapidement les règles de grammaire que les réseaux neuronaux traditionnels tels que les réseaux neuronaux LSTM (une variante des réseaux neuronaux récurrent exploitant des modèles de longue mémoire à court terme).

On reviendra page suivante sur ces relations entre les concepts à propos des limites des IA génératives graphiques, leurs erreurs et leurs biais et la raison pour laquelle elles "hallucinent" parfois et créent des chimères.

Sans faire d'anthropomorphisme, les LLM sont des modèles d'intelligence artificielle capables de comprendre d'une certaine manière le langage humain et d'en générer. En résumé, les modèles de langage sont capables de prédire, en fonction du contexte, les mots qui ont la plus grande probabilité de figurer dans une phrase, d'où l'impression que les IA "comprennent" leur interlocteur humain et sont "sensibles". Mais ce n'est qu'une impression. On y reviendra page suivante.

Les LLM se distinguent des algorithmes des réseaux neuronaux artificiels traditionnels par le fait qu'ils sont basés sur une architecture spécifique, d'être entraînés sur des Big Data - des milliards de données -, et d'avoir une taille généralement gigantesque qui se chiffre de nos jours en milliers de milliards de neurones artificiels et autant de paramètres !

Du fait de leur taille, leur structure et du corpus de textes à partir duquel ils sont entraînés, les LLM ont rapidement montré des capacités impressionnantes dans les tâches qui leur étaient propres, qu'il s'agisse de création de texte, de traduction, ou de correction. Qui plus est, ils semblent capables d'apprendre à accomplir de nouvelles tâches à partir de très peu d'exemples. Enfin, les LLM ont montré des performances relativement surprenantes dans toute une variété de tâches allant des mathématiques à des formes basiques de raisonnement, sauf qu'on ne comprend pas tout à fait comment ils "raisonnent".

En 2024, le LLM le plus performant était Claude 3 Opus d'Antropic. Il fit sensation lors de sa sortie en mars 2024 en battant GPT-4 d'OpenAI qui alimente ChatGPT, dans des tests d'évaluation des capacités des IA génératives. Depuis, Claude 3 Opus est devenu le nouvel outil de référence des tests de raisonnement des étudiants de lycée. Les LLM concurrents sont Claude 3 Sonnet et Haiku qui obtiennent également de bons résultats par rapport aux modèles d'OpenAI. On reviendra page suivante sur les défauts et les risques de ces IA.

Actuellement, les LLM sont une sorte de boîte noire (voir page 2) à l'image du fonctionnement du cerveau humain - la comparaison est osée - c'est-à-dire un système complexe dont on ne comprend pas tout à fait voire pas du tout les détails du fonctionnement. C'est l'une des raisons pour laquelle des chercheurs en psychologie cognitive se sont emparés du sujet pour tester les capacités de raisonnement des IA, éventuellement dévoiler leurs limites et leurs faiblesses, et les comparer à celles des humains.

Le déploiement des modèles de langage d'IA pourrait avoir des conséquences qu'il est aujourd'hui difficile d'appréhender. En effet, il est compliqué de prévoir précisément comment vont se comporter les LLM du fait que leur complexité est comparable à celle du cerveau humain. Un certain nombre de leurs capacités ont ainsi été découvertes au fil de leur utilisation plutôt qu'au moment de leur conception, ce qui n'est pas très rassurant en soi car cela signifie qu'on ne maîtrise plus tout à fait cette technologie. Et cela pose un vrai problème éthique sur lequel nous reviendrons.

A voir : Quand deux IA discutent en mode Gibberlink, Anton Pidkuiko, 2025

Les comportements émergents des IA

Pour comprendre ces "comportements émergents" des IA, des chercheurs en sciences cognitives ont utilisé des outils de leur spécialité traditionnellement utilisés pour étudier la rationalité chez l'être humain afin d'analyser le raisonnement de différents LLM utilisés de nos jours. L'une de ses études que nous allons décrire fut dirigée par Stefano Palminteri, chercheur au département d'études cognitives de l'ENS en France (cf. S.Palminteri et al., 2024).

Selon Palminteri, "nous sommes parvenus à une situation particulière dans le domaine de l'intelligence artificielle : nous disposons désormais de systèmes tellement complexes que nous ne pouvons pas prévoir à l'avance l'étendue de leurs capacités. En quelque sorte, nous devons « découvrir » leurs capacités cognitives de façon expérimentale."

Pour rappel, l'un des objectifs principaux de la psychologie scientifique (expérimentale, comportementale et cognitive) est de comprendre les mécanismes sous-jacents aux capacités et aux comportements de réseaux de neurones extrêmement complexes : ceux du cerveau humain. Ces études permettent de révéler les biais cognitifs chez les humains. A partir de là, les chercheurs ont donc postulé que les outils développés dans le domaine de la psychologie pouvaient s'avérer pertinents pour étudier les LLM d'IA et déterminer si elles présentaient également des biais de raisonnement.

Pourquoi s'intéresser aux biais des IA ? Étant donné le rôle grandissant de cette technologie dans tous les secteurs et sachant que certaines IA peuvent déjà prendre des décisions à notre place, comprendre comment ces machines raisonnent et prennent des décisions est fondamental. Nous approfondirons ce sujet un peu plus loin.

Évolution des performances des LLM des IA comparée à celles des êtres humains (lignes pointillées). Document S.Palmintieri et al. (2024).

Par ailleurs, les résultats de ces études peuvent aussi bénéficier aux psychologues. En effet, les réseaux neuronaux artificiels capables d'accomplir des tâches dans lesquelles le cerveau humain excelle (traitement d'image, de la parole, etc) pourraient aussi servir de modèles cognitifs (cf. R.M. Cichy et al., 2019). Un nombre croissant d'indices suggère notamment que les réseaux neuronaux mis en œuvre dans les LLM fournissent des prédictions précises concernant l'activité neuronale impliquée dans des processus tels que la vision et le traitement du langage (cf. A.Doerig et al., 2023). On a ainsi démontré que l'activité des réseaux neuronaux artificiels entraînés à la reconnaître des objets est corrélée significativement avec l'activité neuronale enregistrée dans le cortex visuel d'un individu réalisant la même tâche. C'est aussi le cas en ce qui concerne la prédiction de données comportementales, notamment en apprentissage.

Pour leur étude, Palminteri et ses collègues se sont principalement focalisés sur les LLM de OpenAI, la société à l'origine du modèle de langage GPT-3 utilisé dans les premières versions de ChatGPT, car ces LLM étaient à l'époque les plus performants. Les chercheurs on ensuite testé plusieurs versions de GPT-3, puis ChatGPT et GPT-4.

Pour tester ces modèles, les chercheurs ont développé une interface permettant d'envoyer des questions et de collecter des réponses des modèles de façon automatique dans le but de rassembler un grand nombre de données.

En résumé, l'analyse de ces données révéla que les performances de ces LLM pouvaient être classés en trois catégories de comportements :

- Les modèles plus anciens étaient tout simplement incapables de répondre aux questions de façon sensée.

- Les modèles intermédiaires répondaient aux questions, mais s'engageaient souvent dans des raisonnements intuitifs qui les menaient à faire des erreurs, similaires à celles que font les humains. Ces IA semblaient privilégier le "système 1", évoqué par le psychologue et prix Nobel d'économie Daniel Kahneman dans sa théorie des modes de pensée.

En bref, chez l'être humain, le "système 1" est un mode de raisonnement rapide, instinctif et émotionnel qu'on peut rapproché de celui des "têtes brûlées" qui agissent avant de réfléchir, tandis que le "système 2" est plus lent, plus réfléchi et plus logique. Bien que le "système 1"soit davantage sujet aux biais de raisonnement, il serait néanmoins privilégié, car plus rapide et moins coûteux en énergie que le "système 2".

Pour rappel, "agir puis réagir, mais sans discuter", c'est-à-dire le mode opératoire du "système 1" est également la façon de fonctionner de certains robots autonomes dont ceux développpés par Rodney A. Brooks du MIT Artificial Intelligence Laboratory avec plus ou moins de succès. On y reviendra en philosophie des sciences à propos du paradigme du comportement.

Voici une question parmi les erreurs de raisonnement testées par Palminteri et ses collègues (tirées du "Cognitive Reflection Test" de M.E. Toplak et al., 2011) :

- Une batte et une balle coûtent 1.10 dollar au total. La batte coûte 1.00 dollar de plus que la balle. Combien coûte la balle ?

Réponse intuitive (système 1) : 0.10 dollar (c'est également la réponse de la majorité des humains)

Réponse correcte (système 2) : 0.05 dollar.

Voici la démonstration : Soit x le prix de la balle en dollars. La batte coûte donc x + 1.00 dollars. L'équation devient :

x + (x + 1.00) = 1.10

2x + 1.00 = 1.10

2x = 0.10

x = 0.05. La balle coûte 0.05 dollar (5 cents).

Lors de ces tests, la dernière génération d'IA (ChatGPT et GPT-4) présentait des performances qui surpassaient celles des humains, ce qui en soi est tout à fait bluffant. On y reviendra.

Suite à ces résultats, les chercheurs ont identifié "une trajectoire positive dans les performances des LLM, que l'on pourrait concevoir comme une trajectoire « évolutionnaire » où un individu ou une espèce acquiert de plus en plus de compétences avec le temps."

Les chercheurs se sont ensuite demandés s'il était possible d'améliorer les performances des modèles présentant des performances intermédiaires (c'est-à-dire ceux qui répondaient aux questions, mais présentaient des biais cognitifs). Ce fut le cas. En incitant les modèles à aborder les réponses erronées de façon plus analytique, ils ont augmenté leurs performances.

La façon la plus simple d'améliorer les performances des modèles d'IA est de simplement leur demander de "réfléchir pas à pas" avant de répondre. Une autre solution consiste à leur montrer un exemple d'un problème correctement résolu, ce qui induit une forme d'apprentissage rapide (one shot). Cela correspond à l'apprentissage supervisé décrit précédemment. C'est plus lent mais c'est très efficace.

Ces résultats révèlent une troisième catégorie de comportement qui est connue, dans laquelle les performances de ces modèles ne sont pas figées, mais évolutives. On pourrait presque parler "d'adaptation". Au sein d'un même modèle, des modifications apparemment neutres du contexte peuvent modifier les performances de l'IA, un peu comme procède un humain, où les effets de cadrage et de contexte (la tendance à être influencé par la façon dont l'information est présentée) sont très répandus.

En revanche, les chercheurs insistent sur le fait que les comportements des LLM diffèrent de ceux des humains en de nombreux points. Selon Palminteri, "D'une part, parmi la douzaine de modèles testés, nous avons rencontré des difficultés à en trouver un qui soit capable d'approximer correctement le niveau de réponses correctes fournies, aux mêmes questions, par des êtres humains. Dans nos expériences, les résultats des modèles IA étaient soit moins bons, soit meilleurs. D'autre part, en regardant plus en détail les questions posées, celles qui posaient le plus de difficultés aux humains n'étaient pas nécessairement perçues comme les plus difficiles par les modèles."

Ces observations suggèrent qu'on ne peut pas remplacer les êtres humains par des LLM pour comprendre la psychologie humaine, comme certains auteurs l'ont naïvement suggéré (cf. K.Gray et al., 2023).Ouf !, dirons-nous. L'être humain a encore de l'avenir.

Mais comme c'est le cas avec toutes les IA génératives, les chercheurs ont constaté qu'en fonction de la version de l'IA de ChatGPT et GPT-4, à quelques mois d'intervalle leurs performances avaient changé, mais pas nécessairement en mieux. Du seul point de vue de la reproductibilité scientifique, c'est un fait relativement inquiétant. Ce problème s'applique également aux IA génératives d'images (par exemple Midjourney) qui sont incapables de reproduire deux fois de suite la même image à partir d'une même description ou du même modèle de référence, qu'elle soit générée dans la même version une minute plus tard ou dans une autre version.

Cela vient du fait que les sociétés qui développent ces IA et en particulier OpenIA pour ChatGPT et GPT-4 apportent régulièrement des changements à leurs modèles sans forcément en informer les utilisateurs, pas même les scientifiques. En revanche, pour sa propre publicité et attirer de nouveaux utilisateurs payants, Midjourney annonce ses nouvelles versions et les améliorations de son IA. Mais dans les deux cas, travailler avec des modèles propriétaires n'est pas à l'abri de ce genre d'aléa ou d'incohérence d'une version à l'autre. Pour les chercheurs (des sciences cognitives ou autre) spécialisés dans les LLM, rien ne vaut des modèles ouverts et tranparents pour garantir le contrôle sur la machine. On y reviendra à propos de la boîte noire.

Conclusion de cette étude, les IA présentent des biais cognitifs et commettent des erreurs de raisonnement mais elles ne sont pas tout à fait semblables aux erreurs humaines. La bonne nouvelle est que les nouvelles générations d'IA font moins d'erreurs de raisonnement que les anciennes. Elles apprennent aussi de leurs erreurs, améliorant continuellement leurs performances. Deviendront-elles des machines superintelligentes ? Il est trop tôt pour le dire.

En résumé, comme peuvent le confirmer tous les spécialistes en cybernétique, de l'apprentissage des IA et de leur programmation, aujourd'hui en raison des défaillances des modèles d'IA, nous sommes incapables de mettre au point un système intelligent au sens propre.

Les data workers ou la face obscure de l'apprentissage des IA

Derrière le côté high-tech et séduisant des IA, se cache des pratiques en violation avec le respect de la vie privée et des droits de l'homme et une face socioéconomique obscure bien moins louable et même inavouée, emblématique de la fracture Nord-Sud.

Le développement rapide des technologies numériques et l'expansion de l'accès à Internet ont transformé le marché du travail mondial. Les plate-formes numériques offrent désormais des opportunités d'emploi à des millions de personnes à travers le monde, indépendamment de leur localisation géographique. Parmi ces emplois, le rôle des annotateurs, des modérateurs et des superviseurs, qu'on surnomme les "data workers", est crucial pour développer et perfectionner les IA.

L'annotation des données par des humains lors de l'apprentissage supervisé des IA leur permet une fois en production d'être autonomes et de reconnaître notamment tous les objets présents dans une image. Document SHAIP.

En 2024, la Banque Mondiale publia un rapport intitulé "Working Without Borders: The Promise and Peril of Online Gig Work", mettant en lumière l'essor du travail en ligne facilité par les plate-formes numériques. Selon les auteurs, il existerait entre 150 et 430 millions de travailleurs, représentant jusqu'à 5% de la population mondiale travaillant à l'amélioration des IA au niveau le plus élémentaire de leur apprentissage.

Nous avons expliqué que les IA, qu'elles soient génératives ou prédictives ainsi que les LLM reposent sur des algorithmes sophistiqués nécessitant une quantité massive de données pour leur apprentissage. Ces données, qu'il s'agisse de textes, d'images, de sons ou de vidéos, doivent être préalablement analysées, vérifiées et annotées pour garantir la pertinence et la précision des réponses générées. C'est ici qu'interviennent les data workers, un qualificatif générique mais surtout péjoratif utilisé à escient pour insister sur le peu de considération que les majors de l'IA leur accordent.

A priori, on imagine que visionner, annoter et vérifier des images et lire des extraits de textes est un travail, peut-être lassant, répétif voire pénible sur la durée, mais qui n'affecte pas la santé mentale du travailleur. Or c'est tout le contraire. C'est même un sujet tabou pour les géants de l'IA. Jusqu'à présent OpenAI, Google, Meta (Facebook) et d'autres majors du secteur ont tenté de s'opposer à la diffusion de reportages sur l'exploitation de ces travailleurs, car on découvre dans quelles conditions ils travaillent et surtout quel genre de travail les géants de l'IA leur demandent sans le moindre scrupule.

Le rôle des data workers

Le travail des data workers consiste à gérer et préparer les données pour l'apprentissage des IA supervisées. Il comprend en fait plusieurs rôles distincts mais complémentaires : annotateur, modérateur et superviseur.

- Annotateur : il étiquette spécifiquement les données textuelles, visuelles ou audio.

- Modérateur : il vérifie les contenus pour s'assurer de leur conformité.

- Superviseur : il supervise, forme (entraine) les utilisateurs et vérifie la qualité des annotations ou des résulktats générés par le.

Dans certaines entreprises il y a également un quatrième rôle, celui d'analyste. Il intervient après les étapes d'annotation, de modération et de supervision. Son travail consiste à évaluer la qualité des annotations, optimiser les processus d'annotation, analyser la performance du modèle IA, identifier les biais et erreurs systématiques et il collabore avec les scientifiques des données (data scientists) en leur fournissant des aperçus et autres analyses (insights) sur les annotations et leur impact sur le modèle pour améliorer l'apprentissage de l'IA.

Dans un système analytique comme l'assistant Siri et le futur LLM Siri d'Apple évoqués en début de page, des modèles de traitement du langage naturel (NLP) sont utilisés pour comprendre et répondre aux requêtes des utilisateurs. L'apprentissage supervisé est souvent appliqué dans ce contexte, où les modèles sont formés sur des ensembles de données annotées par des humains. Bien qu'Apple ne divulgue pas toujours les détails spécifiques de ses processus internes ou des structures organisationnelles, elle fait appel à du personnel travaillant au Royaume-Uni notamment qui écoute à longueur de journées des bandes sons comme des conversations, auxquelles des annotateurs et des superviseurs ajoutent des étiquettes ou des commentaires pour aider le modèle à apprendre à interpréter correctement des questions et à fournir des réponses pertinentes.

En 2025, un lanceur d'alerte dénonça les méthodes d'Apple qui a enregistré les conversations privées des utilisateurs de Siri (des conversations sur des sujets familiaux, de santé, professionnels ou autres). Questionnée à ce sujet, Apple affirma que ces conversations n'étaient pas partagées et servaient exclusivement à entraîner son IA sur des cas réels. Même si c'est probable, Apple a littéralement espionné les utilisateurs de Siri et extrait des informations privées à leur insu, en violation avec la loi européenne sur le respect des données à caractère privé et l'interdiction d'utiliser des données sensibles (cf. le RGPD).

Cela confirme que ceux qui critiquent les méthodes d'espionnage de la Chine, de la NSA ou des agences de renseignement européennes (cf. le programme ECHELON et le scandale PRISM), sont aussi hypocrites qu'eux et utilisent les mêmes techniques furtives ! Suite à ces révélations, la Ligue des droits de l'homme déposa une plainte en France contre Apple (cf. France TV Info) qui s'ajoute à la plainte contre Apple déjà déposée en Californie par un collectif en 2019 concernant également des écoutes illégales via Siri entre 2014 et 2024. Cela fait donc plus de 11 ans qu'Apple viole sciemment les lois protégeant les citoyens, dont le RGPD en vigueur en Europe !

Après le scandale sur les conditions de travail dans les usines de fabrication d'Apple en Asie, notamment en Chine, en particulier en lien avec l'entreprise Foxconn en 2010, voilà deux nouvelles affaires qui ternissent encore un peu plus l'image de l'entreprise soi-disant la plus vertueuse dont la bonne réputation s'égratigne un peu plus chaque année. Mais l'annonce de ce dernier procès fit à peine chuter l'action d'Apple de 1%.

Dans le cas des IA génératives (par exemple, ChatGPT, Midjourney ou DALL-E), les travailleurs doivent annoter et modérer des millions de données textuelles, visuelles ou audio. Ils doivent filtrer (signaler et exclure) les contenus nuisibles, inappropriés ou interdits. Ils doivent annoter des textes (quel mot est une personne, un lieu, une organisation, une date, une arme, etc), vérifier des textes (assurer la cohérence et supprimer les biais, et éventuellement étiqueter les emails comme spam), mais également les annoter sur les plans sémantique, intentionnel et émotionnel (de l'exactitude de la grammaire, de la compréhension, de l'émotion qui en ressort, etc). Ils doivent annoter des images (en identifiant les objets, les styles artistiques, les couleurs, les textures, etc), transcrire et annoter les documents audio, et segmenter et annoter les scènes et les actions dans les vidéos. Ils vérifient et évaluent les réponses générées par les modèles, corrigent et améliorent les sorties des IA via des systèmes basés sur l'apprentissage par renforcement supervisé par des humains (RLHF) décrit plus haut.

Pour les IA prédictives (par exemple, les systèmes de recommandation, les modèles financiers, de détection de fraudes, de risque d'intrusion, etc.), les travailleurs identifient et annotent les objets sur les images, et éventuellement dans les emails (en classifiant comme acceptés ou non : spam, phishing et autres risques d'intrusion). Ils vérifient les prédictions (en évaluant la pertinence d'une recommandation ou d'une détection automatique) et corrigent les biais pour éviter les discriminations (par exemple, dans les prêts bancaires), parmi d'autres tâches.

Pour les LLM, les tâches des travailleurs sont plus complexes, critiques et subjectives. Ils doivent annoter et valider des réponses, et donc juger la qualité d'une réponse générée, ce qui exige une interprétation humaine plus fine. Ils doivent filtrer les contenus sensibles (identifier et supprimer les propos haineux et discriminatoires), structurer de grandes bases de données, vérifier les prévisions produites par l'IA, comparer plusieurs réponses du modèle et lui apprendre à privilégier les meilleures, et surveiller et ajuster les modèles pour améliorer leur précision.

Ainsi qu'on le constate, les tâches de ces travailleurs est plus complexe qu'on ne le pense et demande à la fois de l'attention et du sens critique mais également de la rapidité.

Des conditions de travail inhumaines et sans éthique

Le travail d'annotation, de modération et de supervision de l'apprentissage des IA est exigé par la finalité même des grandes entreprises du secteur (les GAFAM et les géants de l'IA comme OpenAI) qui ont pour objectif de développer l'IA la plus performante possible. Ce travail est confié à des sociétés de services et leurs sous-traitants offrant des services d'annotations pour les modèles IA telles que Innovatiana en France, SHAIP, Scale AI,ou Sama aux Etats-Unis ou Appen en Australie. Mais certaines de ces entreprises ne sont pas aussi éthiques qu'elles le prétendent.

Dans certains pays et en particulier aux Etats-Unis où les majors de l'IA sont installés, ce travail d'annotation de contenu au sens large est externalisé (outsourcé) et confié à des travailleurs recrutés par leurs succursales étrangères ou des entreprises (ou plate-formes) installées majoritairement dans des pays à faibles revenus ou politiquement instables, tels que le Kenya, l'Ouganda, le Ghana, l'Afrique du Sud, Haiti, l'Inde, le Pakistan - autant de pays où Sama est présente -, Madagascar, le Venezuela, le Maroc ou les Philippines.

Les bureaux de Sama à Nairobi, au Kenya, le 10 février 2022. Document D.R. via Portside.

Pourquoi ces majors de l'IA font-ils appel à cette main-d'oeuvre ? Le recours à des travailleurs peu qualifiés au Kenya et ailleurs pour annoter des contenus repose avant tout sur des logiques économiques et d'externalisation de tâches ingrates et difficiles. Toutefois, comme nous allons le découvrir, cela soulève de sérieux enjeux éthiques et humanitaires, notamment sur la santé mentale des travailleurs et leur protection contre l'exploitation.

Un des problèmes est la faible rémunération de cette main d'oeuvre. Les data workers sont souvent sous-payés (moins de 2 dollars l'heure).

Par exemple, selon un document de facturation examiné par les journalistes d'investigation du magazine "TIME", au Kenya où l'anglais est largement parlé, en 2021, OpenAI signa trois contrats avec Sama (ex-Samasource) pour 200000 $. A cette époque, Sama employait 3000 personnes dans le monde dont quelques centaines travaillent dans un building de quatre étages à Nairobi. Sama se présente comme une entreprise d'IA "éthique" et affirme avoir aidé plus de 50000 personnes à sortir de la pauvreté.

En 2021, OpenAI payait 12.50 $ de l'heure à Sama, mais les travailleurs touchaient seulement entre 1.32 et 1.44 $ net de l'heure, avec un salaire mensuel de 22000 KES soit 170 $ plus 70 $ de prime (si le travailleur a atteint son quota). Les analystes qualité gagnaient jusqu'à 2 $ net de l'heure.

Dans un communiqué, un porte-parole de Sama déclara que les travailleurs pouvaient gagner entre 1.46 $ et 3.74 $ de l'heure après impôts. Le porte-parole a refusé de dire quels postes leur permettraient de gagner des salaires se situant dans le haut de cette fourchette. Selon Sama, "Le tarif de 12.50 $ pour le projet couvre tous les coûts, comme les dépenses d'infrastructure, ainsi que le salaire et les avantages sociaux des associés et de leurs analystes d'assurance qualité et chefs d'équipe entièrement dédiés."

Par comparaison, le salaire minimum d'un réceptionniste à Nairobi était de 1.52 $ de l'heure soit 243 $ par mois (cf. Portside) et le salaire médian au Kenya était de 2 $ de l'heure ou ~41300 KES soit ~320 € par mois en 2024.

En quoi consiste leur travail ? Chez Sama, 36 employés, répartis en trois équipes, devaient analyser 150 à 250 passages textuels par shift de neuf heures, avec des extraits de 100 à 1000 mots. Sama contesta ces chiffres et déclara que les employés devaient annoter 70 passages de texte par shift de travail de neuf heures, et non pas jusqu'à 250. Mais les textes soumis par OpenAI concernaient aussi des abus sexuels, de la haine et de la violence.

Les employés devaient aussi visionner et annoter jour après jour des images et des vidéos, y compris parfois très violentes et choquantes afin que l'IA apprenne à reconnaître et filtrer les contenus inappropriés, y compris les crimes ou les discours haineux.

Selon le "TIME", Sama a fourni à OpenAI un lot d'échantillons de 1400 images. Certaines de ces images étaient classées "C4" (étiquette interne d'OpenAI désignant les abus sexuels sur mineurs). Le lot comprenait également des images "C3" (comprenant des scènes de bestialité, de viol et d'esclavage sexuel) et des images "V3" représentant des détails graphiques de mort, de violence ou de blessures physiques graves. OpenAI paya Sama 787.50 $ pour la collecte des images.

Les employés interrogés par le "TIME" ont rapporté des séquelles psychologiques après avoir été exposés quotidiennement à des contenus choquants, jugeant les séances de soutien, souvent uniquement en groupe, inefficaces et limitées (cf. Portside).

Par la suite, Sama rompit son contract avec OpenAI, huit mois plus tôt que prévu. Sama déclara dans un communiqué que son accord de collecte d'images pour OpenAI ne comprenait aucune référence à du contenu illégal, et que ce n'est qu'après le début des travaux qu'OpenAI envoyé des "instructions supplémentaires" faisant référence à "certaines catégories illégales". En janvier 2023, Sama fit un pas de plus en annonçant qu'il annulait tous ses autres contrats portant sur des contenus sensibles, dont un contrat de modération de contenu de 3.9 millions de dollars avec Facebook, ce qui entraînerait la perte de quelque 200 emplois à Nairobi.

Que vient faire Facebook dans cette affaire ? Meta, donc Facebook et Instagram, utilise l'IA pour collecter des informations sur les utilisateurs, modérer les contenus et investit dans des modèles de langages et d'autres systèmes d'IA. Comme OpenAI, Meta exploite donc au sens propre des centaines de travailleurs au Kenya.

Des employés travaillant chez Sama, à Nairobi, le 9 août 2023. Document Lucy Wanjiru/NMG.

En 2023, un groupe de modérateurs kényans intenta un procès contre Sama et Meta pour dénoncer l'exploitation et l'absence de soutien psychologique adéquat (cf. Agence Ecofin). Plus de 140 modérateurs de Facebook ont été diagnostiqués en état de stress post-traumatique par un expert médical de l'hôpital Kenyatta de Nairobi à l'occasion de ce procès (cf. The Guardian, Courrier International et Reuters).

Le verdict très attendu de ce procès pourrait servir de précédent pour des milliers de sous-traitants à travers le monde.

Comme dans d'autres secteurs industriels fiancièrement très rentables (telecom, énergie, déforestation, pétrochimie, mines de diamants, etc), les géants de l'IA aimeraient bien cacher les méthodes sans éthiques qu'ils utilisent pour satisfaire les riches occidentaux. Aujourd'hui leur secret est dévoilé et leurs efforts pour cacher la vérité cachée derrière l'apprentissage des IA ont terni leur réputation.

Ces affaires mettent en lumière les conditions de travail difficiles des modérateurs de contenu et les défis juridiques auxquels sont confrontées les entreprises technologiques en matière de responsabilité sociale et de bien-être des employés.

Le rapport de la Banque Mondiale souligne que, bien que le travail en ligne offre des opportunités économiques significatives, il présente également des défis majeurs. Parmi ceux-ci, les conditions de travail précaires et la rémunération insuffisante des travailleurs de l'IA sont particulièrement préoccupantes.

L'opacité des contrats et des employeurs aggrave cette précarité. Beaucoup ignorent pour quelle entreprise finale ils travaillent, étant souvent employés par des sous-traitants ou des plate-formes intermédiaires. Cette chaîne de sous-traitance rend difficile toute transparence et entrave les possibilités de revendications salariales ou d'amélioration des conditions de travail.

L'automatisation des processus industriels et l'essor de l'IA soulèvent des questions majeures concernant l'emploi et les inégalités économiques. Selon une analyse du FMI (Fonds Monétaire International) publiée en 2024, l'IA pourrait entraîner une augmentation de la production mondiale de 10 à 16% sur une décennie. Cependant, cette croissance ne profite pas équitablement à tous.

Le FMI prévoit que 40% des emplois mondiaux seront impactés par l'IA, avec une proportion atteignant 60% dans les pays développés. Cette transformation pourrait exacerber les inégalités, notamment dans les pays en développement où les travailleurs sont moins qualifiés et plus vulnérables aux changements technologiques.

Vers une reconnaissance et une protection accrues des travailleurs de l'IA

Face à ces défis, plusieurs initiatives émergent pour améliorer la situation des travailleurs de l'IA. Au Kenya, par exemple, des efforts sont en cours pour créer des syndicats dédiés à ces travailleurs de l'ombre, visant à promouvoir la transparence et à défendre leurs droits.

Parallèlement, des discussions internationales s'intensifient pour élaborer des cadres réglementaires garantissant des conditions de travail décentes et une rémunération équitable pour ces travailleurs qui jouent un rôle indispensable dans le fonctionnement et l'amélioration des IA afin que les avancées technologiques profitent à l'ensemble de la société, sans creuser davantage les inégalités.

Notons qu'en 2024, en France, la CNIL (Commission Nationale de l'Informatique et des Libertés) proposa un article détaillé sur l'annotation des données pour l'IA, avec des illustrations pertinentes, et rappelle notamment l'interdiction de traiter des données sensibles en vertu de l'article 9 du RGPD précité, bien qu'il existe des exceptions.

La société américaine SHAIP propose également un guide en anglais mis à jour en 2025 sur les "Best Practices" sur l'annotation des données.

Malgré l'entrainement supervisé et le recours à des millions de petites mains sous-payées, les IA donnent encore de mauvaises réponses ou se trompent dans leur diagnostic. Pour le prouver, nous allons à présent expliquer pourquoi elles se trompent en décrivant les limites, les erreurs, les hallucinations et les biais des IA parmi d'autres problèmes toujours d'actualité.

Prochain chapitre

De l'IA au monde concret sensible

Page 1 - 2 - 3 - 4 - 5 -

Back to:

HOME