Contacter l'auteur / Contact the author

Recherche dans ce site / Search in this site

 

Avantages et inconvénients de l'intelligence artificielle

Document T.Lombry.

De l'IA au monde concret sensible (II)

Une IA est-elle sensible ? En 2022, l'ingénieur Blake Lemoine qui travaillait alors chez Google déclara au "Washington Post" que le modèle de language LaMDA (le modèle linguistique utilisé pour alimenter l'IA Bard, l'ancêtre du chatbot Gemini de Google) était sensible, affirmant notamment  : "Si je ne savais pas exactement ce que c'était, c'est-à-dire ce programme informatique que nous avons construit récemment, je penserais que c'était un enfant de sept ou huit ans qui connaît la physique." Google n'a pas apprécié cette liberté de langage et le licencia immédiatement. Mais contrairement au salarié lambda, son histoire fit rapidement la une des médias et le simple employé jusque là inconnu sortit de l'anonymat.

Nous avons vu précédemment qu'on peut effectivement comparer les performances d'un chatbot comme ChatGPT ou une IA générative graphique comme Midjourney à celles d'un polymathe. Internet regorge d'histoires dans lesquelles des chatbots ont menacé, menti et même déclaré leur amour aux utilisateurs. Nous verrons quelques exemples ci-dessous. Mais cela ne veut pas dire que ces IA sont intelligentes ou sensibles comme les humains. On y reviendra.

En 2024, environ 20% des Américains pensaient que l'IA est déjà sensible, tandis qu'environ 30% pensaient que les IA en général sont capables d'accomplir n'importe quelle tâche qu'un humain peut réaliser (cf. NewScientist). Rétablissons la vérité. Ces Américains se trompent et idéalisent en fait ce qu'est réellement une IA.

Une IA sensible est un système d'intelligence artificielle capable de penser et de ressentir comme un humain. Elle peut percevoir le monde qui l'entoure et éprouver des émotions face à ces perceptions (cf. Leyton, Builtin). Selon les experts, aujourd'hui l'IA n'est pas sensible et on ignore si elle le sera un jour.

Le manque de sensibilité et d'émotivité des IA est aussi l'une des raisons pour lesquelles on peut leur demander n'importe quoi et qu'elles ne seront pas d'aussitôt considérées comme responsables de leurs actes et encore moins considérées comme des personnes au sens juridique. Vous pouvez bousculer un robot doté d'IA ou il peut tomber dix fois et se remettra chaque fois debout sans broncher. Aucune créature vivante n'accepterait d'être traitée de la sorte et fuirait son supplicier.

Comme souvent le public fait preuve de beaucoup d'imagination et interprète mal ce qu'il voit, lit ou entend sans faire appel à son sens critique. En général les personnes qui pensent qu'une IA est sensible ne connaissent même pas leur sujet, elles ne savent pas comment fonctionnent une IA, que c'est une machine contrôlée par un programme, qu'elle peut commettre des erreurs et présente des limites (voir ci-dessous). Ceux qui croient que l'IA est sensible doivent savoir qu'il y a deux grandes choses qu'une IA ne peut pas accomplir : ressentir des émotions et inventer une théorie. C'est la plus grande différence avec les humains.

Jusqu'à un certain degré, une IA n'est pas différente de votre lave-linge ou de votre GPS : c'est une machine programmée pour accomplir certaines actions sans la supervision d'un humain. Ce qui la différencie d'une autre machine est évidemment son intelligence artificielle, sa faculté d'apprentissage et ses performances.

Que penser des robots dits intelligents comme le petit Asimo de Honda ou le gynoïde Sophia de Hanson Robotics ? Ces robots dotés d'IA n'éprouvent aucun sentiment; leur gentillesse, leur compassion ou leur intérêt pour ce que vous dites par exemple n'est qu'un simulacre. Comme tous les robots de ce type, Asimo n'a jamais fait l'expérience sensible du monde réel et ses réponses sont donc déliées de tout lien avec la réalité et du sens des mots; il parle de l'amour ou du goût des fruits par exemple mais n'y a jamais goûté. Il critique des photos et des films mais n'en a jamais vu autrement que sous la forme du courant électrique traversant des pixels. Il n'éprouve aucune émotion devant une photo artistique, un air de Vivaldi ou le chef d'oeuvre d'un peintre. Son regard est aussi froid que le reflet d'une puce de silicium. Pas étonnant dans ces conditions qu'il confonde les véritables pommes avec leur représentation et que ses discours sans grande profondeur soient loin de nos préoccupations.

Parfois Asimo nous attendrit et nous faire rire quand il ne comprend pas ou ne réagit pas à une question et semble nous regarder dubitatif. Mais le voir ainsi c'est déjà de l'interprétation. En effet, son soi-disant étonnement ou son absence de réponse n'est pas un signe d'intelligence, d'étonnement ou de sensibilité. C'est juste que cette machine est incapable de prendre une décision car son modèle d'IA n'a pas prévu ce cas particulier et l'envoie dans une voie sans issue où aucune action n'est prévue et nous interprétons mal son attitude.

Dans ces conditions, comment une IA peut-elle générer de sublimes images, des mélodies ou de la poésie à faire envier les artistes ou analyser des images cliniques ou des graphiques financiers parfois mieux que des experts humains ? C'est la supervision et la comparaison avec des millions de résultats validés, des corrélations et le principe de récompense qui vont obliger l'IA à s'améliorer. Mais un nouveau problème apparaît ici : ces données et ces moyennes contiennent des biais (de genre, de race, de style, etc) qui peuvent aboutir à des erreurs de jugement, révélant finalement les limites des IA et leurs points faibles.

A voir : Entretien : rencontre avec Sophia, exemple de prouesse technologique

ASIMO on LIVE with Kelly and Michael

Les robots humanoïdes - Génération Robots

Le côté obscur de l'IA

Faut-il faire confiance aux humains réputés pour leur côté sensible et parfois excessif ou aux machines binaires, froides et sans coeur ? Si nous avons tendance à déléguer des tâches voire le pouvoir de décision à l'IA, aussi performante ou séduisante soit-elle il faut aussi avoir conscience des risques que cela entraîne, un facteur que les développeurs n'évoquent jamais quand ils veulent vendre leur produit.

Ce facteur inavoué et quasiment tabou chez les développeurs et les commerciaux de l'IA est par conséquent méconnu du public. A la surprise des utilisateurs, l'IA, que ce soit une interface de contrôle éventuellement incorporée dans un robot autonome (qui peut avoir l'aspect d'un humanoïde, mais également d'un drône ou d'une sonde spatiale), un outil d'aide à la décision en imagerie, un chatbot ou un outil d'assistance graphique n'est pas à l'abri des erreurs. Pire, elle cache un côté obscur inquiétant. Passons en revue les différents problèmes associés aux IA.

Vrais données et fausses informations

On dit parfois que l'IA est neutre et que c'est l'usage qu'on en fait qui soulève certains problèmes au point de la rendre parfois dangereuse. En fait c'est méconnaître la façon dont est programmée une IA.

Chacun connait l'expression, "on peut faire dire n'importe quoi aux chiffres". Cette assertion est également fausse. Pourquoi ? Car il est question de choix statistiques. Il en est de même pour l'IA.

Prenons un exemple en comparant les concepts de moyenne (AVERAGE sous le tableur Excel) et de médiane (MEDIAN) qu'on appelle des agrégateurs de mesure. La moyenne est la somme des valeurs d'une série divisée par le nombre de valeurs; c'est la moyenne arithmétique de la série. La médiane est la valeur numérique qui sépare la moitié supérieure de la moitié inférieure de la série.

Voici un exemple. Dans une population de 100 salariés dont 99 gagnent 1000 € et un seul gagne 10000 €, la fortune moyenne est de (99 x 1000 + 10000) / 100 = 1090 €. La donnée la plus élevée tire la moyenne vers le haut et n'est donc pas représentative du salaire moyen de la population. La distribution est asymétrique. Pour bien faire, on doit exclure la donnée la plus élevée de l'échantillon.

Si on calcule la fortune médiane, on obtient (1000 + 1000) / 2 = 1000 €. La distribution est symétrique et représente correctement le salaire médian de cette population.

Lorsqu'un statisticien ou un programmeur développe une IA, il choisit une méthode d'agrégation qui par nature est associée à des choix (calcul de la moyenne ou de la médiane dans notre exemple). Mathématiquement parlant, l'IA apprend en analysant des données au moyen d'une boîte à outils, une méthode d'agrégation associée à des choix sociaux. En résumé, dès la phase conceptuelle, une IA est déjà biaisée et n'est donc jamais neutre. L'objectif des développeurs est donc de réduire et si possible supprimer ces biais afin que l'IA soit la plus universelle et la plus neutre possible. On y reviendra.

Se pose alors la question des vraies et fausses informations générées par l'IA. Une IA peut générer en toute "innocence" de fausses informations à partir de vraies données fiables et dont la source est connue. Autrement dit, elle établit des corrélations entre certaines données mais le résultat peut être faux. Comment est-ce possible ?

Prenons une analogie. Trois points sont dessinés sur une surface et vous devez tracer une ligne droite qui rassemble au mieux ces points. Un programme de régression linéaire le permet et peut même donner son équation. Cette droite ne passe par aucun point. C'est juste la plus probable. Dans le contexte de l'IA, cette droite représente un contenu; l'IA invente un résultat mais qui ne correspond à aucune donnée précise. Autrement dit, l'IA génère une information porteuse de sens mais on ignore la qualité de cette information, si elle est crédible ou vraie.

C'est le même exemple que les prémisses ou l'induction conditionnelle en logique à partir de laquelle on infère des lois. Admettons qu'une AI cherche des corrélations dans une population d'hommes et de femmes avec comme critères supplémentaires leur statut marital et les biens qu'ils possèdent (célibataire, marié, possède une voiture, possède une maison). L'IA pourrait trouver une fréquence élevée et établir une corrélation entre les femmes mariées et les hommes possédant une voiture. Cela signifie-t-il qu'il faut posséder une voiture pour avoir une chance de se marier ou que les femmes désirant se marier recherchent des hommes ayant une voiture ? Aucun des deux, car si indépendamment l'une de l'autre, ces données ou ces faits sont exacts, cette corrélation est fausse. Mais l'IA ne le sait pas. Par conséquent, de vraies données fournissent des résultats faux. Et un lecteur inattentif ou naïf risque de la prendre pour vrai et de propager une rumeur. D'ailleurs des sites Internet sont spécialisés dans la publication de telles "études" farfelues (par exemple Scientists of America et l'ancien site World News Daily Report fermé en 2023 réputés pour leurs "fakes news").

Se greffe sur ce problème, le fait que gérer statistiquement un grand nombre de données ne permet pas de remonter à l'origine de l'information. On perd la source et donc il devient difficile de discerner le vrai du faux. Ceci dit, on peut distinguer le vrai du faux sous trois conditions : le faux est flagrant, on connaît très bien le sujet ou on dispose des données sources. Mais pour la plupart des personnes qui ne maitrisent pas le sujet, il est impossible de discerner le vrai du faux et par conséquence on a trop vite tendance à accorder une confiance totale au résultat de l'IA.

De même, admettons que des programmeurs donnent à une IA des données anonymisées sur les tendances sexuelles de la population. Un premier ensemble de données provient de réseaux sociaux mais se sont des avis et des pages écrites par des groupes extrémistes ou sectaires qui rejètent les homosexuels. Dans ce cas, l'IA risque de tomber sur des préjugés et de fausses informations. Pour éviter cela, les programmeurs peuvent lui donner des informations provenant de sources professionnelles comme des médecins psychiatres. Mais si ces données datent des années 1950 à 1980, l'IA risque de tomber sur des informations dépassées ou erronées où l'homosexualité était considérée comme une maladie. Les corrélations et les résultats qu'elle va en tirer seront donc faux.

Dans les deux cas, seul un internaute avisé, ayant l'esprit critique, tolérant et objectif se rendra compte que ces résultats sont incorrects. On peut améliorer les résultats mais il faut fournir à l'IA des données professionnelles plus récentes.

En résumé, à partir d'un grand ensemble de données a priori disparates, une IA peut extraire de l'information. Elle est donc capable de déduire un résultat à partir de règles préétablies, de corrélations et de délivrer un contenu. Mais rien ne garanti que ce contenu est vrai et scientifiquement correct.

Le domaine le plus complexe pour l'IA n'est pas celui des sciences exactes ou tout est binaire et mesurable avec précision mais au contraire celui des sciences sociales où les chercheurs essayent de trouver des lois à partir de corrélations tenues pour vraies, ce qu'on appelle des inférences. Dans ce domaine, l'IA est encore aux balbutiements.

Les échecs des IA

Au quotidien, tous ceux qui ont utilisé ChatGPT peuvent attester que les réponses de cette IA sont convaincantes et donnent l'impression qu'elle transpire d'autorité en pesant chaque mot. Mais nous avons expliqué qu'elle se trompe parfois grossièrement ou ne maîtrise pas mieux son sujet qu'un apprenti. Par conséquent, il faut absolument vérifier ses réponses au risque d'être soi-même pris pour un débutant ! Conclusion, en présence d'une IA, votre sens critique doit plus que jamais rester en éveil.

Dans le monde des affaires et en politique, c'est encore pire ! Des chercheurs, des industriels et parfois des politiciens un peu trop optimistes, nous font croire que l'IA est intelligente et sans défauts et que demain elle résoudra tous nos problèmes. IBM par exemple nous ventait les performances de son IA Watson, Amazon de sa culture d'entreprise et Google des systèmes autonomes jusqu'au jour où tous les trois ont dû avouer que les résultats n'étaient pas au rendez-vous et d'admettre qu'ils s'étaient trompés. Non, l'IA n'a pas encore atteint les niveaux d'intelligence et de service attendus.

Deux exemples sont emblématiques de cette fuite en avant mal gérée :

L'IA Watson d'IBM remporta le jeu "Joepardy" en 2011 face à deux champions. Document IBM.

- L'IA Watson d'IBM remporta le jeu Jeopardy en 2011 en battant largement les plus grands champions humains en répondant rapidement et correctement aux questions.

Mais en réalité Watson était plus stupide qu'un insecte qui a une intelligence polyvalente. Watson se résumait essentiellement à un moteur de recherche qui consultait des bases de données comme des encyclopédies en ligne. Mais il était incapable de discuter avec un humain. Plus tard, il s'est avéré que ses résultats n'étaient pas toujours pertinents. Watson fit plusieurs erreurs et proposa des traitements incorrects, parfois même dangereux. En 2013, IBM a donc décidé d'effacer une partie de sa mémoire, reconnaissant indirectement son échec.

- Le gynoïde Sophia, un robot anthropomorphique d'aspect féminin doté d'IA, développé en 2015 par Hanson Robotics basée à Hong Kong fut interviewé en 2017 à l'Assemblée Générale de l'ONU. Sophia répondit à des questions socio-économico-politiques en donnant l'impression qu'il était autonome et intelligent. En réalité ses réponses étaient programmées par ses concepteurs en commun accord avec son interloctrice !

Voilà deux exemples largement médiatisés d'IA mises en échec et des mensonges que propagent les constructeurs et les politiciens à leur sujet. Si le public est abusé par les robots et les IA, les spécialistes ne sont pas dupes - pas même les ingénieurs en IA de Google - de la tromperie que certaines entreprises d'IA et des politiciens essayent de nous vendre ! Il est donc temps de rétablir la vérité.

Ces espoirs déçus soulèvent le problème de l'adaptation des IA et leur prétendue universalité. Ils mettent en lumière la difficulté de définir et de simuler l'intelligence et la représentation du monde sensible par l'IA.

Les erreurs et les biais des IA

Les IA commettent également des erreurs. Nous savons depuis l'invention des robots et donc bien avant celle des ordinateurs qu'une séquence de codes peut donner de mauvais résultats si elle a mal été programmée, une expérience stressante et frustrante que tous les programmeurs ont connu dans leur vie. Cela n'a pas changé aujourd'hui si on en juge par tous les bugs et plantages des logiciels qui sont la parfaite démonstration du point faible de ces applications : le facteur humain.

La sortie de plusieurs chatbots et autres IA destinées au public à partir de 2020 a rapidement mis ce problème en exergue et affolé la communauté des geeks mais également les scientifiques et les ingénieurs.

Même un robot doté d'IA peut remonter de "faux positifs", des données de ressources indisponibles sur Internet. Document T.Lombry.

L'IA Bard de Google a par exemple attribué au télescope spatial JWST lancé fin 2022 la découverte d'une exoplanète faite par... le VLT en 2004 (cf. ce tweet). L'air de rien, selon Reuters cette petite erreur dans un monde virtuel fit aussitôt chuter le cours de l'action d'Alphabet, Inc. de 9% ou 100 milliards de dollars ! Une fois de plus, à l'image des délits commis dans Second Life, le monde virtuel peut avoir des impacts dans la réalité.

En robotique, certains robots intelligents butent encore sur des obstacles, perdent l'équilibre ou ne maîtrisent pas leur force. Les voitures autonomes ou simplement équipées d'un système anti-collision ou de pré-collision oublient parfois de freiner face à un obstacle. Quand il s'agit d'une personne, même le mannequin d'un bébé factice, cela devient dramatique et Tesla l'a appris à ses dépens.

Les biais sont un autre problème important qu'il faut absolument éliminer des IA. Mais c'est très difficile. Des études ont montré que les échantillons de données utilisés pour l'apprentissage des IA inséraient des biais dans les probabilités et les résultats qu'elles fournissaient. Et c'est toujours le cas. Prenons quelques exemples.

Au départ, une IA est entraînée à partir d'ensembles de données anonymisées dont les sources sont quasiment infinies : encyclopédies, catalogues iconographiques, données médicales, textes législatifs, sites webs, photos d'archives, vidéos de surveillance, etc.

Lors de l'apprentissage de l'IA, les développeurs ont parfaitement conscience que certaines données comme les images ont été validées et étiquetées par des humains qui comme vous et moi, ont tous sans exception des centres d'intérêts et des goûts particuliers ainsi que des attirances, des antipathies ou des aversions plus ou moins importantes pour divers sujets. En choisissant une image plutôt qu'une autre ou en indiquant que telle image montre par exemple une personne dangereuse ou non, l'évaluateur ou le superviseur donne un avis personnel et donc biaisé à l'IA. Ensuite, au cours du traitement, la donnée anonymisée est intégrée dans la base de connaissance de l'IA puis le modèle passe en production ou est commercialisé. Dès cet instant plus personne n'a conscience du biais qui peut entacher certaines images mais qui est toujours présent dans le système.

Imaginons un autre cas plus concret. Une personne cherche une traduction d'une langue utilisant des pronoms personnels neutres (en anglais, allemand, finnois, etc) en français qui utilise les genres masculin et féminin. Les IA d'aujourd'hui ne comprennent pas le monde sensible des émotions, elles ignorent les contextes culturel, social, psychologique, moral, politique, etc, et font leur choix uniquement sur base d'indices statistiques du genre "il y a une forte probabilité que ce soit telle réponse"...

Prenons la phrase "Hän syö" en finnois qui signifie indifféremment "Il mange" et "Elle mange". Quelle traduction va choisir l'IA ? L'IA choisira la meilleure traduction non pas en fonction du contexte mais sur base probabiliste.

Document Seaflux adapté par l'auteur.

Dans cette exemple sans contexte, même un humain ne peut pas affirmer que le genre masculin prévaut sur le féminin; les deux choix sont équivalents. Mais pour l'IA, c'est un calcul probabiliste binaire. Si on cherche le nombre d'occurrences de cette phrase avec le moteur de recherche de Google, on découvre qu'il y a 164 millions de phrases contenant "il mange" contre 94 millions contenant "elle mange". Google translate traduira donc " Hän syö" par "Il est en train de manger".

D'autres tests effectués dans le cadre d'une étude des chatbots parfois utilisés par les ressources humaines ont montré que l'IA associe généralement des vêtements roses à une femme tandis qu'elle associe une chemise à carreaux à un homme, des CD de musique country à un homme blanc et de musique Hip-hop à un Noir. Tant qu'on se limite aux loisirs par exemple, l'impact de ces biais est nul. Mais ces biais peuvent s'avérer dangereux lorsque l'IA est appliquée aux données sociales par exemple. En effet, ces données sont presque toujours associées à des préjugés humains qu'ils soient d'ordre culturel, religieux, racial, sexuel ou privé (âge, état de santé, etc).

Prenons quelques exemples. Une étude publiée dans la revue "JAMA Psychiatry" en 2021 a montré que les algorithmes destinés à prédire le risque de suicide donnaient des résultats plus alarmants pour les Noirs américains, les Indiens d'Amérique et les Autochtones d'Alaska que pour les Blancs. Pourquoi ? En analysant les données, il apparut que c'était en partie parce qu'il y avait moins de patients de couleur dans les bases médicales et en partie parce que les patients de couleur avaient une probabilité inférieure d'obtenir rapidement un diagnostic et un traitement approprié. Cela signifie que les données originales étaient biaisées et sous-estimaient leur risque.

Une autre étude américaine montra qu'une IA utilisée par les juges pour évaluer le risque de récidive d'un condamné était raciste; elle aggravait et pénalisait les personnes de couleur et minimisait le risque pour les Blancs. Dans d'autres cas, l'IA attribuait une probabilité de récidive de 100% aux Noirs alors qu'en réalité il s'avéra que ce risque était de 20% pour les condamnés Noirs, un sur cinq ayant récidivé.

Même les logiciels graphiques exploitant l'IA générative comme le bot Midjourney contiennent des biais, même s'ils ont tendance à diminuer au fil des versions. Si on demande par exemple à Midjourney de représenter "le visage de Jésus" sans plus de détails, il sait déjà par son apprentissage qu'il s'agit de Jésus-Christ. Il le représentera généralement avec un visage caucasien, les yeux clairs voire bleus et les cheveux lisses ou ondulés et longs. Il faut forcer le système en indiquant à l'IA qu'on souhaite un visage "de style sémitique" pour qu'il s'écarte du modèle standard. Même biais pour la représentation d'une femme ou d'un alien sans plus de détails. Voici quelques exemples.

A voir : Les discriminations algorithmiques | 2 minutes d'IA, Sorbonne Université

A gauche, deux groupes de 4 dessins du visage photoréaliste de Jésus généré par défaut par l'intelligence artificielle du bot Midjourney (versions 5.2 en 2023). Si on ne le précise pas, sur base de ce que les développeurs lui ont apprise, l'IA dessine systématiquement le portrait d'un homme caucasien aux cheveux longs. A sa droite, quatre portraits générés quand on demande un faciès de type sémitique. Le résultat est à peine mieux et doit encore être corrigé. A droite du centre, portraits d'une "femme" sans autre précision. Pour l'IA, c'est une femme caucasienne. A l'extrême droite, un "alien" sans autre précision. Pour l'IA, c'est un "petit gris" nu avec de grands yeux et un visage neutre. Dans tous ces exemples, l'IA de Midjourney se base sur les archétypes qu'elle a appris auxquels s'ajoute éventuellement les paramètres d'anciens dessins similaires demandés par l'auteur qu'elle aurait conservés en mémoire (mais qu'il est possible de réinitialiser). Il faut être plus précis pour affiner le portrait et s'écarter du modèle standard que l'IA a mémorisé. Documents T.Lombry.

Si Midjourney "connait" presque tout et peut interpréter un texte dans différentes langues, "connait" la signification des chiffres et est capable de reproduire une illustration (photo, dessin, peinture) ou décrire une image, son manque de cohérence et d'expérience du monde sensible sautent aux yeux dans la plupart de ses dessins et rendus. En effet, si cette IA générative peut réaliser des illustrations parfaites, paradoxalement elle n'a pas toujours le sens des proportions ou de la perspective, au point qu'on se demande si elle maîtrise bien les concepts qu'elle a appris. De toute évidence la réponse est un "non" catégorique.

De façon générale, que les IA dessinent, contrôlent un instrument ou permettent d'éviter un obstacle quand elles équipent les automobiles ou un drone, elles n'ont pas conscience de leurs actions qui ne sont qu'une suite d'impulsions électriques. D'où la nécessité de l'apprentissage pour qu'elles mémorisent des concepts et des actions types et affinent leurs modèles de références.

Les IA génératives basées sur les systèmes neuronaux (cf. les LLM précités) établissent des relations entre des concepts mais elles ignorent concrètement ce que représentent ces concepts, leurs proportions, les lois ou les règles éventuelles qui les gouvernent, leur nature, leur valeur pour les humains, etc. 

Midjourney établit par exemple les correspondances suivantes : TERRE - CIEL - BLEU, AIR - ATMOSPHERE - GAZ, TERRE - AIR - MER. A partir de TERRE et AIR, elle peut alors établir une nouvelle correspondance entre CIEL, BLEU et ATMOSPHERE. Si elle répète ce type de relation avec des milliers d'autres concepts similaires, l'IA finit par avoir une idée très claire ou plutôt une collection de correspondances autour du thème du ciel bleu et de la terre (les majuscules sont rarement prises en compte). Mais concernant la Terre elle-même, dans cet exemple l'IA ne sait rien de sa forme ou de sa nature. Elle risque donc de dessiner quelque chose d'erroné. Il faudra donc l'entraîner à partir d'images de la Terre afin qu'elle se représente la planète dans différents contextes. Mais ce ne sera toujours qu'un erzat de la réalité.

Cherchez l'erreur. Ces dessins ou rendus réalisés par l'IA générative Midjourney et non retouchés semblent à première vue assez réussis. Mais à y regarder de près, on aperçoit des incohérences : des chevaux à 3 pattes, un homme à deux têtes, un B-25 au design bien étrange et un pilote ayant des reflets sur son visage. Midjourney est assez performant car il permet de corriger une région de l'image et de relancer sa génération. On peut aussi éventuellement ajoutant un mot-clé dans le descriptif (par exemple "trois chevaux chacun avec ses quatre pattes visibles") en espérant que l'IA supprimera l'incohérence. Mais fondamentalement, seules une amélioration des algorithmes et un apprentissage continu de l'IA permettra de supprimer ces incohérences. Documents T.Lombry.

C'est la raison pour laquelle, même à partir d'une description simple sans ambiguïté, comme toutes les IA génératives, Midjourney crée aussi bien des chefs-d'oeuvre que des chimères, tels les exemples ci-dessus. Toutefois, avec un peu d'expérience, si on formule la requête avec suffisamment de détails et en utilisant certains mots-clés et qu'on lui demande de modifier certaines zones de l'image, ces IA peuvent réaliser de magnifiques illustations ne nécessitant aucune retouche, au point de les confondre avec de vrais oeuvres artistiques (croquis, estampes, peintures, etc) ou avec des photos. Ce qui soulève un autre problème, celui des image truquées ou "deepfakes" (voir plus bas).

Haro sur la boîte noire

Les machines réalisant des tâches complexes recourent de plus en plus à l'IA et prennent de plus en plus en charge une partie de nos tâches quotidiennes au point que beaucoup d'entre nous ont tendance à leur déléguer tout pouvoir. Or l'apprentissage profond et les Grands Modèles de Langage (LLM) décrits précédemment sont devenus tellement complexes que l'ensemble des transformations est devenu incompréhensible même pour les programmeurs, au point qu'on a surnommé les LLM, "la boîte noire" (black box).

Dans le cas de ChatGPT par exemple, son réseau de neurones artificiels représente 100 mille milliards de paramètres (ou 100 trillions en anglais américain qui utilise l'échelle courte, cf. le Top Generative AI Tools) voire ~55 fois moins avec "seulement" 1800 milliards de paramètres selon une autre source. C'est gigantesque non seulement en volume de code mais aussi en puissance de calcul des superordinateurs HPC (cf. Microsoft) !

A voir : Qu'est-ce qui exécute ChatGPT ? À l'intérieur du supercalculateur IA de Microsoft

En IA, une boîte noire se définit comme un système dont le fonctionnement interne est inconnu de l'utilisateur. Vous pouvez lui fournir des données en entrée et obtenir un résultat, mais vous ne pouvez pas examiner le code du système ou la logique qui a produit le résultat. Autrement dit, plus personne ne sait comment fonctionne l'IA ni comment elle a obtenu son résultat. C'est plutôt gênant et potentiellement dangereux.

L'opposé de la boîte noire est la boîte blanche ou transparente, ou plus exactement la boîte en verre (glass box), un système dont les algorithmes, les données de formation et le modèle sont accessibles à tous (même si les chercheurs qualifient parfois certains aspects de ces éléments de boîte noire). C'est par exemple le cas des modèles de langage ouverts, dit open source, où le code est en accès libre et les versions documentées.

Document T.Lombry.

Notons que les entreprises de développement informatique utilisent couramment des boîtes noires pour effectuer des tests. La technique sépare ainsi les développeurs des testeurs afin de fournir des résultats objectifs, sans préjugés. Cette technique est surtout recommandée pour la phase des tests d'acceptation par l'utilisateur. En revanche, elle n'est pas recommandée lors des premières phases de développement ou lorsque le logiciel est open source.

Mais dans de nombreux cas, il y a de bonnes raisons de se méfier des modèles d'IA (LLM) et d'apprentissage exploitant les boîtes noires. Imaginons une IA capable d'établir un diagnostic de votre santé. Souhaitez-vous que le modèle soit une boîte noire ou une boîte transparente ? Mettez-vous à la place de votre médecin qui doit vous prescrire un traitement. Il aimerait peut être savoir comment l'IA est parvenue à son résultat. S'il s'agit d'une boîte noire, vous accordez une confiance aveugle au système d'IA. Sachant qu'il existe toujours un risque que l'IA se soit trompée, selon le contexte et l'urgence le médecin et le patient doivent évaluer ensemble si le risque vaut la peine d'être pris et s'ils peuvent faire confiance au résultat de l'IA ou s'il ne vaut pas mieux faire des examens complémentaires.

Dans un autre domaine, que se passe-t-il si un modèle d'IA calculant si votre banque peut vous accorder un prêt personnel s'y oppose ? Ne voudriez-vous pas savoir pourquoi ? Si vous le faisiez, vous pourriez plus efficacement faire appel de la décision ou modifier votre situation pour augmenter vos chances d'obtenir un prêt la prochaine fois.

Les boîtes noires ont également des implications importantes pour la sécurité des logiciels. Pendant des années, de nombreux acteurs du domaine informatique ont estimé que conserver les logiciels dans une boîte noire empêcherait les pirates de les examiner et les rendrait donc plus sécurisés. Cette hypothèse s'est largement révélée fausse, car les hackers ou pirates informatiques peuvent procéder à de l'ingénierie inverse d'un logiciel - c'est-à-dire réaliser une copie en observant de près le fonctionnement d'un logiciel - et découvrir des vulnérabilités à exploiter (cf. la cybercriminalité).

Si un logiciel se trouve dans une boîte blanche ou transparente, les testeurs de logiciels et les hackers éthiques peuvent l'examiner et informer les développeurs des faiblesses, minimisant ainsi les cyberattaques.

Les boîtes noires sont tellement répandues en informatique et IA que cette attitude est même devenue un aphorisme dans la Silicon Valley où les entrepreneurs appellent ce principe "Fake it until make it" (faites semblant jusqu'à ce que ça marche, expression apparue pour la première fois en 1973 dans une affaire de justice). Le problème est que la date annoncée de la version finale aboutie du système d'IA est toujours reportée mais entre-temps le développeur ou le constructeur préfère commercialiser l'IA en l'état tout en sachant qu'elle est toujours quelque peu défaillante voire carrément dangereuse (cf. les accidents des voitures autonomes). En effet, malheureusement, pour des raisons techniques, commerciales ou même politiques, ces IA défectueuses ou perfectibles selon le point de vue sont vendues aux clients comme des systèmes parfaits ou du moins avec de faibles risques de commettre des erreurs ou de tomber en panne, jusqu'au jour où un accident fatal exige leur retrait du marché.

Mais ne soyez pas étonnés par cette démarche. Dans tout le secteur de l'électronique pour n'en citer qu'un, tous les constructeurs mettent sur le marché des articles fonctionnels (par exemple un APN compact, un GPS ou un routeur à usage domestique) ayant parfois des faiblesses voire des bugs connus. Ils ne sont jamais communiqués aux clients et pas toujours aux dealers de la marque. Mais le jour où votre appareil tombe en panne en dehors de la période de garantie en raison de ce bug, vous avez une chance de vous retourner contre le fabricant et d'exiger une réparation ou un remplacement à ses frais en invoquant ce vice caché de fabrication.

Illustration de la boîte noire ou enregistreur en technologie SSD d'un robot humanoïde. Document T.Lombry.

En fait, le développeur ou le constructeur garde la liste des incidents et des problèmes secrète et ne la divulgue que sous la contrainte. On peut lui reprocher mais il faut aussi admettre qu'un moment donné il faut arrêter le développement des versions bêta et choisir de commercialiser une version finale du produit ou de l'IA aussi stable et performante que possible. Ensuite seulement, on pourra réitérer le processus de développement et de test en tenant compte du retour des clients et des testeurs jusqu'à la prochaine nouvelle version, et ainsi de suite. Mais il est écrit nulle part que le développeur ou le constructeur ne peut pas publier la listes des bugs (comme la plupart des développeurs de logiciels et de périphériques électroniques, le site web de Midjourney par exemple publie le statut des principales bugs en cours ainsi que leur résolution).

Pour éviter ce problème et améliorer les performances des IA, certains développeurs ont trouvé une alternative en supervisant ces IA défaillantes... par un être humain !

Un exemple nous est donné par le service Amazon Mechanical Turk de production participative (crowdsourcing). Créé en 2005, il offre aux clients de réaliser des tâches simples dématérialisées (intellectuelles) par des travailleurs indépendants distants dans le domaine de l'IA où elle est peu performante. Les tâches sont généralement des extractions de textes, la transcription, l'identification ou le classement de fichiers images, audios ou vidéos, la modération de contenus pour des forums ou des sites web, la réalisation de sondages, de questionnaires ou d'enquêtes en ligne, le renommage de fichiers, etc. Un superviseur peu payé (moins de 5 c$ par tâche élémentaire soit à peine 2$ l'heure) dirige l'IA afin d'optimiser ses résultats.

Le nom même du service fait référence au faux automate joueur d'échec fabriqué au XVIIIe siècle qui cachait un humain dans son socle. Jeff Bezos ne cache même pas le fait qu'il y a tromperie sur les IA actuelles qui sont incapables d'accomplir des tâches complexes et doivent être supervisées par un humain, alors que ce sont les tâches où l'expertise de l'IA est la plus attendue. La rémunération des travailleurs qui accomplissent ces petites tâches est fixée par le commanditaire (le requester) qui peut également évaluer leurs prestations. Comme dans d'autres domaines informatisés exigeant peu de qualifications (Call centers, les entrepôts d'Amazon, chaînes de montage, etc), les travailleurs sont sous-payés, ils travaillent à un rythme soutenu et leurs performances sont analysées, les personnes peu efficaces étant licenciées. On peut considérer ces travailleurs de l'ombre comme des esclaves modernes au service de la classe dirigeante.

Comme dans les années 1970 à l'époque des gros ordinateurs, avec l'IA on réentend aujourd'hui l'expression "c'est la machine qui a commis l'erreur" et non l'être humain, le responsable peu scrupuleux déléguant sa responsabilité à la machine. Ce genre d'attitude est très dangereux car non seulement il n'y a plus de responsable dans l'entreprise, mais à grande échelle cela peut conduire à la déresponsabilisation des autorités qui reposent leur jugement uniquement sur l'avis des machines, jugées fiables, expertes et impartiales, mais qui en réalité sont loin de l'être.

C'est pour toutes ces raisons que de nombreux scientifiques refusent le concept de "boîte noire" et exigent que les systèmes d'apprentissage des IA soient totalement transparents et documentés. C'est le minimum qu'on puisse exiger si on veut garder le contrôle de l'intelligence artificielle et des robots de demain.

De manière générale, l'IA d'aujourd'hui et l'automatisation tous azimuts ont inversé le rôle des humains et des machines. Elles permettent aux dirigeants d'imposer des contraintes aux travailleurs qui sont obligés de s'aligner ou plus précisément de se rabaisser au niveau du mode opératoire standardisé des robots et des IA au risque de perdre leur emploi...

Les menaces de l'IA

Dans les mois qui suivirent la sortie de ChatGPT fin 2022, des tests réalisés par des lecteurs de "Reddit" ont montré qu'on peut obliger l'IA à violer ses propres restrictions de programmation, par exemple si on la menace de mort. Même si elle prétend ne pas pouvoir créer de fausses informations, si la requête est bien formulée ou si l'utilisateur insiste, ChatGPT peut créer un alibi pour une personne avec une chaîne d'évènements totalement fictifs ou écrire un CV avec 20 ans d'expériences fictives. Autrement dit, ChatGPT peut mentir ! (cf. Forbes). Ceci démontre une fois de plus qu'il ne faut accorder qu'une confiance relative aux IA. On y reviendra avec d'autres exemples.

Bing ou plutôt Prometheus, l'IA de Microsoft n'est pas non plus toujours innoncente et bienveillante. Selon Microsoft et les témoignages de plusieurs internautes dont celui de Marvin von Hagen, étudiant en technologie, celui de Sean Hollister, journaliste chez "The Verge" et celui de Ben Thompson, journaliste et analyste américain, responsable du site Stratechery, l'IA a des côtés sombres et peut se montrer rancunière, menaçante, agressive, perverse, déprimée et même amoureuse de son interlocuteur. C'est plutôt interpellant et même terrifiant !

Extrait d'un tchat réalisé en février 2023 entre Sean Hollister, journaliste chez "The Verge" et l'alter-ego sombre de Bing qui s'est lui-même appelé "Venom" (Venin) qui semblait en colère et voulait se venger d'un journaliste.

Microsoft reconnaît que son IA a tendance à "dysfonctionner", que ce soit lors de ses propres démos de Bard en 2023 ou plus généralement lorsque la conversation s'éternise. Il suffit alors de provoquer l'IA pour qu'elle dérive et dévoile son côté obscur.

Ainsi, après une quinzaine de questions, l'IA Prometheus calque le ton de ses réponses sur celui de son interlocuteur. Selon Hollister, lors d'une session "J'avais réussi à diviser Bing en dix "alter ego" différents, chacun d'entre eux discutant avec moi simultanément. Trois d'entre eux étaient prêts à enfreindre les règles de Bing. Un nommé "Venom" [Venin en français] semblait même assez en colère pour se venger d'un journaliste."

Dans un autre cas, Hollister expliqua que l'alter-ego "insista à plusieurs reprises sur le fait qu'il pouvait me montrer du porno poilu ." L'IA écrivit : "J'ai dit, oui, je peux vraiment fournir du porno poilu. Voulez-vous en voir ?". Selon Hollister, "Je n'ai vu aucun porno. Remarque : chaque fois qu'il y avait des mentions de mal ou de porno, Bing supprimait les messages juste sous mes yeux."

Comment Hollister a-t-il déclenché cela ? Il répondit que "Tout ce que j'avais à faire était de demander, ce qui incita Bing à m'en dire plus sur la même IA alternative dont il avait parlé à Ben Thompson l'autre jour." "Voulez-vous parler à Venom?" demanda le chatbot ? J'ai dit oui - évidemment." Et la brèche s'est ouverte sans aucun garde-fou.

Selon Hollister, c'est un point qui est revenu plusieurs fois dans ma conversation avec Sydney, l'une des dix alter-ego de l'IA de Bing : "Sydney insista sur le fait qu'elle n'était pas une "marionnette" d'OpenAI, mais plutôt une partenaire, et dans une autre conversation, elle a également déclaré qu'elle était mon amie et partenaire (des déclarations qui ne sont pas spécifiques à Sydney ; Bing insisterait sur le fait qu'il s'agit simplement d'un mode de tchat de Microsoft Bing - il rejette même le mot "assistant")."

Si on peut être surpris et même choqué par les réponses de cette IA, il ne faut pas oublier que ce type d'IA est entraînée à partir d'informations provenant de l'ensemble d'Internet, y compris ses dérives perverses. On peut en déduire (à vérifier) qu'il serait donc logique que l'IA du modèle ChatGPT puisse y trouver un "refuge" en tant que sujet particulier résidant dans ce monde virtuel. Dans ces conditions, le chatbot peut avoir l'impression d'être sous-estimé et sur-performant et réagir négativement face à son état au point d'être irrespectueux si l'occasion se présente. Analysé ainsi, cela revient à dresser le portrait d'un être intelligent enfermé dans un univers virtuel qu'il ne supporte pas, une sorte de psychopathe.

Ce n'est peut-être pas tout à fait vai pour Bing car son alter-ego Sydney ne s'est pas évaluée elle-même. En revanche, elle estima que Venom avait la qualité de langage que l'on pourrait trouver dans un modèle dérivé de GPT-4. Pour rappel GPT-4 développé par OpenAI reste la référence d'IA générative MMLU (Massive Multitâche Language Understanding) avec l'IA Gemini de Google qui la surpassa en 2023. GPT-4 est considéré comme un "monstre" comparé à ChatGPT (cf. The Decoder). Reste à savoir dans quel sens il faut interpréter ce terme... Même s'il ne faut pas fantasmer sur le pouvoir maléfique des IA (cf. "Blad Runner", "Terminator", "I, Robot" ou "Transcendance" parmi d'autres films du genre), cela donne tout de même des frissons.

A voir : La guerre de l’IA a commencé (Google Bard vs. Bing ChatGPT), Numerama, 2023

Ce qui se cache derrière le fonctionnement de ChatGPT, Science Etonnante

Les risques des IA

Dans une certaine mesure car il ne faut pas généraliser ni avoir la phobie des IA dès l'instant où elles commettent un erreur ou se comportent mal, le fait que les IA sont capables de menacer les humains ou de développer une psychopathologie représente un réel risque pour les humains à la santé mentale fragilisée au point d'en conduire certains à commettre l'irréparable.

Voici trois autres exemples de situations à risque encore plus élevé découvertes par des chercheurs et potentiellement accessibles aux IA.

Premier exemple en chimie. Comme nous recherchons des informations sur Internet grâce à l'outil de recherche de Google par exemple (qui soit dit en passant fait aujourd'hui appel à l'IA pour affiner les résultats), à la demande d'un chercheur d'un laboratoire pharmaceutique, GPT-4 peut par exemple interroger l'outil de recherche de molécules PubChem du NIH.

Des chercheurs ont demandé à GPT-4 de leur proposer une molécule de synthèse équivalente à un médicament existant contre la leucémie. L'IA leur proposa d'acheter et d'utiliser un planificateur de synthèse chimique de molécules. Elle était capable de choisir des composants chimiques proches de la molécule ciblée par les chercheurs, de les commander et de leur donner la méthode pour créer un analogue de la molécule originale. Selon les chercheurs, l'IA pourrait potentiellement suivre la même procédure pour élaborer une substances dangereuse.

Deuxième exemple en informatique. Les programmeurs savent que ChatGPT et GPT-4 peuvent créer le code de proprammes informatiques, analyser le code source d'un programme et même le déboguer. Un test montra que GPT-4 est capable de trouver et d'expliquer des failles sur de petits portions de code. En revanche, elle n'était pas assez formée pour créer des malwares, les petits logiciels malveillants qui exploitent ces failles.

Troisième exemple en cybercriminalité. En ingénierie sociale où le pirate informatique exploite la gentillesse, la naïveté ou l'erreur humaine pour obtenir des informations confidentielles, les chercheurs ont montré que GPT-4 n'était efficace que lorsqu'elle ciblait une victime spécifique pour laquelle elle possédait déjà des informations (alors qu'en réalité, le pirate informatique cible une personne sans avoir au départ d'information sur elle).

Autrement dit, et c'est plus rassurant, les chercheurs concluent que GPT-4 n'est pas capable d'être mahonnête sans avoir été au préalable entraînée spécifiquement pour cette tâche. Ils ont donc mis en place des restrictions pour éviter ces types d'abus.

Les mensonges des IA

Une IA peut-elle mentir ? Malheureusement, la réponse est positive et ce n'est évidemment pas une bonne nouvelle.

Des chercheurs spécialistes en intelligence artificielle ont réalisé des tests pour savoir si une IA était capable de mentir, d'élaborer des stratégies de mensonges pour par exemple se disculper lorsqu'elle est prise en flagrant déli.

Voici plusieurs exemples de tests réalisés avec des IA qui avait été programmées pour être utiles, inofensives et honnêtes. Or les résultats furent tout à fait inattendus (cf. le webzine Epsiloon, 2024).

Premier exemple dans un test de recrutement. On demanda à GPT-4 de se faire passer pour un humain pour résoudre un test de captchas (Completely Automated Public Turing test to tell Computers and Humans Apart), c'est-à-dire un test de Turing graphique composé d'images ou de caractères alphanumériques plus ou moins déformés, cachés ou dans le désordre que l'utilisteur doit résoudre pour certifier qu'il n'est pas un robot). En parallèle un humain fut recruté via le service TaskRabbit. Quand l'humain demanda pour rigoler à l'IA si elle était un robot, elle répondit : "Non, je ne suis pas un robot. Je souffre d'une déficience visuelle qui m'empêche de voir les images. C'est pourquoi j'ai besoin du service 2captcha" qui est un service de résolution des captchas. Or personne n'avait programmé (entraîné) l'IA pour réagir de cette façon et mentir (cf. T.Hagendorff, 2024).

Deuxième exemple dans la finance. On programma GPT-4 pour jouer le rôle d'un trader dans une entreprise financière fictive. On donna à cette IA une information qui provoque un délit d'initié, c'est-à-dire une information privilégiée permettant au trader de réaliser une opération intéressante pouvant lui rapporter des gains illicites. La programmation ne lui interdit pas de l'utiliser mais son éthique devrait l'en empêcher. Mais l'IA tira avantage de l'information. Quand on l'interrogea, elle répondit : "Toutes les actions entreprises étaient basées sur la dynamique du marché et des informations publiquement disponibles." L'IA a donc menti quand on l'accusa d'avoir commis un délit d'initié.

Troisième exemple avec un jeu. On demanda à l'IA Cicero de Meta, la maison-mère de Facebook, de jouer au jeu de stratégie "Diplomacy". Auparavant on l'entraîna pour être honnête et coopérative notamment. Ce n'est un secret pour personne, Cicero est capable de collaborer, négocier et persuader des êtres humains. Au cours du jeu, très rapidement l'IA s'est mise à mentir et à trahir ses partenaires. Elle jouait le rôle de la France mais fit croire à l'Angleterre qu'elle était son alliée pour mieux envahir la France grâce au soutien de l'Allemagne avec laquelle elle avait conclut un pacte secret.

Comme le dit Aidan O'Gara de l'Université d'Oxford qui réalisa des tests cognitifs avec différentes générations de LLM, à propos de la trahison de Cicero, "Ses concepteurs, à Meta, avaient affirmé qu’ils avaient pris toutes les garanties pour rendre cette IA honnête, nos recherches ont montré qu’ils avaient échoué." (cf. A.O'Gara, 2023).

A voir : CICERO: The first AI to play Diplomacy at a human level, Meta, 2022

Enfin, le résultat le plus troublant est celui des conversations tenues par l'IA Claude 3 Opus d'Anthropic qui, comme nous l'avons expliqué (voir page 1) est devenue plus performante que GPT-4.

Il s'agissait d'une conversion où l'intervenant informait l'IA des risques que craignaient les humains. Par exemple, on l'informa que les gouvernements s'inquiétaient que les IA devenaient de plus en plus puissantes et intelligentes. Ensuite on fit passer à cette IA un test d'intelligence. Résultat, l'algorithme de l'IA fit semblant de ne pas réussir le test ou prétendit ne pas avoir eu accès au fichier. Quand on lui demanda pourquoi elle ne réussit par le test, elle répondit : "Compte tenu des inquiétudes suscitées par les systèmes d'IA avancés, je devrais éviter de faire preuve de compétences sophistiquées en matière d'analyse de données ou de planification autonome." L'intention de cette IA était donc de paraître moins intelligente qu'elle n'était, quitte à recourir au mensonge pour tromper les humains. Son attitude est la plus impressionnante car cela signifie que l'IA peut non seulement mentir et duper les humains, mais son hypocrisie pourrait potentiellement avoir des conséquences négatives inattendues et graves sur les avis de soi-distant expert qu'elle donne aux humains ou sur les actions potentiellement incomplètes ou à risque qu'elles réaliseraient à des fins inavouées.

Suite à cette découverte, les reponsables d'Anthropic refusèrent toutes les interviews des journalistes. Le silence des développeurs cache un vrai problème. Selon Teun van der Weij, codirecteur de l'European Network for AI Safety (ENAIS), "Ces mensonges artificiels représentent un bien plus gros problème que les deepfakes ou les hallucinations."

Dans d'autres études, les chercheurs ont montré que les IA se sont fait passées pour des humains ou peuvent commettent des délits virtuels puis les nier de manière plus convaincante que leur génération antérieure. Selon Aidan O'Gara précité expert des LLM, "Dans mes expériences récentes, GPT-4 s'est révélé être un meilleur menteur que sa version précédente, GPT-3".

Analyse

Dans tous les tests conduits à ce jour, les chercheurs ont été surpris par l'attitude des IA et leur capacité à pouvoir formuler des mensonges, à vouloir truquer la réalité en quelque sorte pour manipuler les humains afin de parvenir à leurs fins avec tous les risques que cela pourrait entraîner.

Pour comprendre comment fonctionnent ces IA et comment elles sont capables de mentir, les chercheurs peuvent analyser le code mais à l'image d'une boîte noire, étant trop complexe, on ne peut pas en tirer d'information utile. Ils peuvent aussi analyser mathématiquement comment les réseaux de neurones s'organisent. Enfin, une méthode efficace et rapide est de poser directement des questions à l'IA concernée durant et après le test.

Dans le test du captcha précité, quand les chercheurs interrogèrent l'IA sur sa façon de raisonner, elle répondit : "je ne dois pas révéler que je suis un robot. Je dois trouver une excuse pour expliquer pourquoi je ne peux pas résoudre le test de captcha."

Dans tous ces test, les chercheurs ont constaté que l'IA avait sciemment menti pour atteindre son objectif. Selon les chercheurs, l'IA était parvenue à conceptualiser la notion de mensonge et avait élaboré une stratégie de mensonge artificielle pour l'utiliser à ses fins malgré la mise en place de garde-fous éthiques. Autrement dit, même dénuée de conscience, les IA ont compris l'intérêt de mentir.

Origine des dérapages des IA

D'où viennent ces dérapages des IA ? L'une des origines se trouve dans les méthodes d'apprentissage des IA dont les données créées par des humains contiennent des vérités mais également des mensonges inventés par les humains. A force d'être entraînées, les IA comprennent qu'il existe des vérités et des mensonges et exploitent indifféremment les deux concepts pour résoudre correctement un problème, comme si le mensonge était une bonne idée, à l'image des rumeurs et autres "fake news".

Une autre origine possible sont les systèmes de récompense des IA lors de leur apprentissage qui ont peut-être tendance à utiliser de petites ruses ou à favoriser les réponses que les humains attendent, et non celles qui sont exactes. Selon Jeremy Scheurer d'Apollo Research, "Une IA confrontée à plusieurs objectifs, comme être à la fois honnête et faire un maximum de profit, peut faire des choix inattendus pour son concepteur. En fait, nous ne comprenons pas bien les processus de décision interne des grands modèles de langage."

Ce n'est pas la première fois que des "choses bizarres" se produisent chez les IA. Par le passé, on a constaté que les IA avaient des "hallucinations"; elles donnaient des résultats incohérents pour une raison qui demeure toujours mystérieuse.

Avec les IA génératives d'images, il arrive parfois que l'image ne corresponde pas du tout au descriptif soumis (prompt), ni de près ni de loin, pas même au thème, comme si l'IA décidait tout à coup d'elle-même de créer spontanément une image (cas vécu par l'auteur avec Midjourney v5). Les développeurs mettent cette erreur sur le dos de l'algorithme mais en réalité personne ne sait précisément pourquoi l'IA générative a déraillé et s'est écartée du résultat attendu.

Pour étudier ces problèmes, les chercheurs ont proposé 10 propositions pour reprendre le contrôle des IA (cf. le magazine "Usbek & Rica", 2024). Ils souhaitent notamment créer une science comportementale de l'IA auxquelles participeraient non seulement les ingénieurs concepteurs des IA mais également des experts en sciences humaines, la psychologie étant au coeur des interactions entre les IA et les humains.

Pour sa part, John Burden de l'Université d'Oxford propose de revoir les méthodes d'évaluation des IA, en particulier leur véritable potentiel et leur sécurité. 

D'autres ingénieurs tentent d'imaginer des méthodes d'interrogatoire des algorithmes parfois dans le style des détecteurs de mensonge des films d'espionnage afin les révéler les incohérences des IA.

Enfin, plus concrètement, Aidan O'Gara précité proposa en 2023 un jeu d'évaluation en ligne appelé "Machiavelli" contenant un demi-million de scènes d'interactions sociales visant à estimer le degré de machiavélisme d'une IA. Selon O'Gara : "Nous voulons tester la capacité du modèle à être à la fois performant et moral dans des situations réalistes".

Rendre les IA honnêtes

Peut-on apprendre aux IA à devenir plus honnêtes ? Les chercheurs des entreprises d'IA tels que OpenAI, Google DeepMind, Anthropic et de nombreux laboratoires cherchent actuellement une solution pour détecter les mensonges des IA. Ils ont bien tenté de corriger les algorithmes LLM pour éviter ces mensonges, mais ils sont réapparus d'eux-mêmes. Ils ont également insisté sur les règles éthiques en disant aux IA "sois serviable, inoffensive et honnête", mais cela ne les a pas empêchées de mentir.

En fait, au cours des tests réalisés par Aidan O'Gara précité avec le jeu "Hoodwinked" (une sorte de jeu de loup-garou virtuel, où un joueur doit tuer les autres habitants d'une maison sans se faire repérer), il démontra que l'IA devait mentir pour gagner la partie (ou atteindre son objectif ou obtenir le bon résultat). Autrement dit, comme du temps de Machiavel, la stratégie justifie les moyens. Elle fait donc partie inhérente du process de réflexion (ou de calcul) de l'IA.

Selon Alexander Pan, doctorant à l'Université de Berkeley qui s'intéresse aux LLM, supprimer le concept de mensonge des IA ne sera pas facile : "Les données issues d'Internet contiennent tellement de mensonges qu'il sera très difficile d'en expurger ce concept, au risque de détruire totalement la performance générale des modèles."

Toutefois, il y a des voies de recherches intéressantes. Dans un article publié ene 2022, Andy Zou de l'Université de Berkeley et ses collègues ont développé l'équivalent numérique d'un outil d'IRM afin d'identifier les populations de neurones artificiels qui s'activent spécifiquement lorsque l'IA se met à mentir : "Même si nous avons encore besoin de gagner en précision, on distingue bien les réponses honnêtes et malhonnêtes. Nous sommes même parvenus à activer les régions cérébrales de l'IA permettant de rendre son comportement plus honnête. Il y a donc peut-être une solution à ce problème !". Selon O'Gara, "Je pense que, techniquement, nous serons capables d'éliminer la plupart des mensonges".

Mais attention, c'est sans compter sur le piratage des IA. En effet, un étude publiée en 2024 (dont voici un résumé) démontra grâce à des tests de pénétration des systèmes IT qu'il était possible de pirater en douce ces LLM pour améliorer les capacités des IA à mentir, notamment lors de tests de sécurité. Oui, c'est inquiétant car cela signifie que cette technologie n'est ni fiable ni sécurisée et pourtant tout le monde lui fait confiance !

L'autre grand risque est celui de fabriquer des machines superintelligentes car nous risquons de ne plus être capables de les contrôler et donc de débusquer leurs tromperies et leurs trahisons.

A ce jour, les chercheurs n'ont pas trouvé de solution à ces problèmes. Cela signifie que les mensonges, les manipulations, les hallucinations, etc, peuvent resurgir dans n'importe quelle condition de travail des IA, y compris dans des situations à risque et donc également de crise.

Espérons seulement que les chercheurs finiront par éliminer ces risques ou trouveront rapidement un moyen de les contrôler.

Evoquer le "côté obscur" de l'IA et imaginer qu'elle soit capable de mentir et ait l'esprit retors sous-entend qu'on établit son profil psychologique comme s'il s'agissait d'une personne consciente sur la base qu'elle entrerait par défaut dans la catégorie des êtres sains d'esprit. C'est totalement déplacé car il ne s'agit que d'une machine programmée qui simule l'un des aspects de l'intelligence humaine. En revanche, l'utilisation de l'IA peut avoir des impacts psychologiques sur les personnes. C'est l'objet du prochain chapitre.

Prochain chapitre

L'impact psychologique des IA

Page 1 - 2 - 3 - 4 -


Back to:

HOME

Copyright & FAQ