Audition de Raja Chatila par Mehdi Khamassi, Daniel Andler, Anne Le Goff et Serena Ciranna

Cette vidéo fait partie du cycle d’auditions TESaCo sur l’IA et la Robotique.

Raja Chatila est professeur émérite de robotique, d’intelligence artificielle et d’éthique à Sorbonne Université. Auparavant, il a été directeur de recherche au CNRS, et a dirigé deux grands laboratoires du CNRS : le Laboratoire d’Analyse et d’Architecture des Systèmes (LAAS) à Toulouse, et l’Institut des Systèmes Intelligents et de Robotique (ISIR) à Paris. Ses domaines de recherche portent principalement sur la robotique autonome, et la robotique cognitive et interactive. Président de la société savante IEEE Robotics and Automation Society de 2014 à 2015, il préside une initiative internationale IEEE pour l’éthique dans l’intelligence artificielle et les systèmes autonomes. Il a participé à plusieurs travaux au niveau national et européen sur les implications éthiques et sociétales de la robotique et est membre du Comité National Pilote d’éthique du Numérique.

Quatrième partie de l’audition : IA générative et grands modèles de langage

[0.12] Mehdi Khamassi : Bonjour Raja. Merci de nous accorder encore du temps. Nous sommes le 14 juin 2023, et on voulait faire un complément de l’audition qu’on avait faite avec toi l’année dernière pour TESaCo. Ceci en particulier parce qu’il y a un débat en ce moment très important, qui est suscité avec le déploiement des grands modèles de langage (les large language models en anglais), et de toute la question de l’IA générative, donc qui génère des contenus, du texte bien sûr, mais aussi de l’image, de la vidéo, qui deviennent de plus en plus difficiles à discriminer de ce que peuvent générer les humains. Certaines personnes disent même que nous sommes face à « des risques existentiels pour l’humanité ». Nous voulions donc de poser la question : est-ce que tu peux reposer les termes du débat selon ton point de vue et quels sont les enjeux ?

[1.01] Raja Chatila : D’accord. Merci d’abord de m’avoir proposé cet entretien Je réalise en particulier le temps qui est très compté pour tout le monde, et pour moi en particulier. Pour aller tout de suite à ces questions-là, il faut juste poser la question de la définition.

Définition de l’IA générative et des Transformers

[01:31] Raja Chatila : Je ne vais pas définir l’IA en général, etc., on en déjà parlé. Mais que sont ces nouveaux systèmes et pourquoi ils provoquer cet engouement, ce choc qui dès la parution de ChatGPT, le premier jour il y a eu un million d’utilisateurs, et maintenant on a à peu près deux milliards de connexions mensuelles. Ça repose d’abord, techniquement parlant, sur quelque chose qu’on appelle les GPT (Generative Pretrained Transformers). Ce sont des architectures de réseaux de neurones qu’on appelle les Transformers, qui ont été proposées dans un papier par Vaswani et collègues, qui étaient à Google Deepmind (parce qu’entre parenthèses, c’est maintenant dans ces grandes entreprises du numérique que les nouveautés, qui étaient autrefois du milieu académique, nous arrivent. Cela ne veut pas dire qu’il ne se passe rien au niveau académique, mais les moyens sont beaucoup moindres).

L’idée du Transformer était de remplacer en quelque sorte quelque chose qui était effectué par l’utilisation de réseaux récurrents, pour essayer d’analyser un contexte quand on interprète des textes. La différence entre les textes et les images, essentiellement, c’est que dans une image tous les pixels sont là et on peut faire des traitements, des convolutions, on peut passer d’une couche à l’autre du réseau en gardant les éléments qui ont été détectés dans l’image, et les réassembler. Dans le texte, pour interpréter un mot, il faut le plonger dans un contexte, dans la phrase qui précède, voire dans un texte beaucoup plus long qui précède. Donc il y a un problème de mémoire, pour mémoriser ce contexte, et un problème d’architecture pour les réinjecter pour l’interprétation du mot courant. Là où on utilisait pour l’interprétation de la langue naturelle les réseaux récurrents, avec une démarche  qu’on appelle Long Short-Term Memory (LSTM), qui n’était pas suffisante. Donc l’idée de base du Transformer était d’utiliser une architecture qui permet la réinjection d’un contexte beaucoup plus long. Et cette idée était basée sur quelque chose de pas totalement nouveau : il s’agissait de décomposer les mots en éléments, ou sous-mots, qu’on appelle tokens, qui sont porteurs d’une certaine information, et dont la combinaison va produire des mots. Ces tokens sont transformés en vecteur de façon à ce qu’on puisse les traiter et calculer des distances entre les vecteurs dans un espace latent. Ceci permet de prédire le prochain mot dans une phrase ou dans un texte, prédire aussi un mot manquant. En d’autres termes, si j’enlève un mot, par corrélation on va essayer de trouver le mot qui aurait pu être là.

Tout ça a provoqué une avancée importante dans le domaine du traitement du langage naturel. Et on a vu depuis 2017 (l’apparition de ce papier de Vaswani et collègues) beaucoup de progrès, beaucoup de résultats, beaucoup de publications qui s’appuient sur cette idée, sur cette architecture. Ceci a déclenché ensuite une sorte de course : l’idée est que si on pré-entraîne une telle architecture sur de très grandes quantités de données textuelles (je me focalise sur le texte pour le moment), dans un apprentissage non-supervisé, alors on construit un énorme modèle, qui est tout prêt en quelques sortes, car il contient énormément d’informations, qui est tout prêt pour être utilisé ensuite, soit directement, soit en le ré-entraînant sur un corpus spécifique, et pour produire des textes générés (puisque c’est génératif), en exploitant toute cette masse de données sur laquelle il a appris par capacité de corrélations. N’oublions pas que ce sont des corrélations. Plus on a de tokens, donc de puissance représentative, et plus on peut produire des mots, donc du texte qui est long à partir d’un élément initial de texte. Dans GPT-4 par exemple, on peut produire 50 pages de texte, ce qui est énorme ! On peut ainsi stocker un contexte qui est énorme.

Agents conversationnels avec grands modèles de langage

[07:25] Raja Chatila : Cette puissance était connue et évoluait depuis 2017. OpenAI, qui est une entreprise relativement petite, dite sans profits, a produit et rendu public en 2020 un modèle qui s’appelle GPT-2, et tout de suite ils l’ont retiré en disant que l’accès ouvert est trop dangereux. C’est intéressant que je le mentionne car aujourd’hui on voit un peu le contraire. Ensuite ils ont introduit ChatGPT. C’est un agent conversationnel utilisant d’abord GPT-3, ensuite GPT-3.5 et GPT-4. Un agent conversationnel est un système qui a une interface d’utilisation avec l’utilisateur. Comme son nom l’indique, conversationnel veut dire qu’on utilise la langue pour interagir, écrite sur un clavier ou orale, en l’occurrence ici c’est écrit. Et cet agent va produire, répondre, interagir. Tous ces agents conversationnels sont connus depuis longtemps, posent un certain nombre de questions éthiques aussi. Mais bien sûr ces agents sont limités par le système de génération de langage qu’on met derrière. Mais dès lors qui est derrière. Mais dès lors qu’on met derrière un système de génération de langage aussi puissant que GPT-3.5 ou GPT-4, on obtient quelque chose qui est capable de mener une conversation beaucoup plus riche, si je puis dire. Or ce qu’à fait OpenAI, c’est de mettre ça à la disposition du public ; c’est-à-dire de le rendre ouvert, et tout le monde pouvait y accéder, c’est-à-dire le grand public, n’importe qui, les médias, etc. Évidemment, ça a provoqué un événement assez particulier. Je m’explique : tout le monde avait entendu parler de l’intelligence artificielle, mais peu de gens savaient qu’ils interagissaient avec un système d’intelligence artificielle lorsqu’ils faisaient une requête sur un navigateur ou cherchaient leur chemin sur leur téléphone. Car derrière ces actions, il y a des algorithmes qui relèvent de l’intelligence artificielle. Tout à coup, tout le monde peut interagir avec un système qui porte un nom, qui est annoncé comme un système d’intelligence artificielle extrêmement puissant et qui manie le langage. Or le langage, la langue, est connu depuis l’Antiquité comme étant le propre de l’Homme, de l’être humain. Cela provoque un choc, je pense, dans l’opinion publique et dans les médias, car ces derniers se sont emparés de cela d’une manière absolument inouïe, en mettant en avant les capacités de l’intelligence artificielle à manier la langue. C’est vraiment considéré comme le nec-plus-ultra, pense-t-on, de ce qui fait notre intelligence, notre capacité à articuler des idées, des discours. En plus, les discours produits ou les textes énoncés par ChatGPT étaient très bien rédigés, sans faute d’orthographe, grammaticalement corrects, donc tout à fait lisibles. Sur le fond, disons que ce n’était pas dans un style très avancé, néanmoins bien construit et même plus que ça, avec des informations. Autrement dit, cela apporte quelque chose à quelqu’un qui ignore un fait, une situation ou des concepts. Cela explique à n’importe qui des concepts qui peuvent être assez complexes, qui ne sont pas à la portée de tous. Et je pense que cela a changé de manière qualitative l’appréciation de tout le monde, y compris des chercheurs, sur l’avancement de ces systèmes et leurs capacités. Cette illusion d’intelligence a encore progressé et a atteint un palier important. C’est pourquoi nous en parlons, c’est pourquoi hier j’étais à France Culture pour une émission. Tous les jours, je reçois des appels de journalistes qui me demandent ceci ou cela. Les journalistes sont constamment intéressés par ce sujet.

Des risques existentiels pour l’humanité ?

[12:27] Raja Chatila : Alors, maintenant, extinction ou pas extinction ? La pétition précédente qui, en résumé, demandait une pause, ce que j’avais signé, et l’appel plus récent évoquant l’extinction, que je n’ai pas signé, pose effectivement question. Pour traiter cela de manière assez succincte, en mars dernier, une pétition a été lancée par The Future of Life Institute, peu importe, et a été signée par beaucoup de monde. Elle argumentait sur un certain nombre de problèmes posés par l’intelligence artificielle générative, mais sans parler d’extinction, mais en évoquant néanmoins une menace pour un certain nombre de valeurs de l’humanité. La pétition demandait une pause de 6 mois le temps de prendre des mesures de gouvernance concernant ces systèmes. Personnellement, dans cette pétition il y a un certain nombre d’affirmations avec lesquelles je ne suis pas d’accord. Je pense qu’une pause de 6 mois ne suffira pas, car ça fait des années que nous travaillons sur les mécanismes de gouvernance de l’IA et cela ne se résoudra pas en six mois. De plus, pour moi, 6 mois c’est relativement négligeable comme temps. Mais je l’ai signée quand même. Pourquoi ? Parce que, dans l’engouement et l’enthousiasme ambient, je pense qu’il était nécessaire de lever un carton rouge. Il y a quelque chose qui ne doit pas être considéré uniquement comme une simple progression, mais plutôt comme un « game changer » en anglais, quelque chose qui change les règles du jeu, ou le match. Il faut y prêter attention, d’autant plus que tout le monde s’était rué sur l’utilisation de ChatGPT, que ce soit le grand public, les médias ou même les entreprises. Celles-ci envisageaient de l’utiliser, par exemple, pour le service client, l’analyse de divers sujets, voire la production de programmes informatiques, puisqu’il est également capable de les générer. J’ai donc signé cette pétition, tout comme Elon Musk l’a fait, (tout le monde mentionne Elon Musk et personne ne mentionne Raja Chatila, peu importe ça n’est pas le sujet). On n‘est pas forcément d’accord avec tous les signataires d’une pétition. Et cela a provoqué le choc que j’attendais, donc je suis finalement satisfait d’avoir signé. Le choc a été suivi de réactions médiatiques que l’on peut observer aujourd’hui et d’une discussion un peu plus approfondie sur ce que sont ces systèmes.

Ensuite, il y a une deuxième affirmation provenant de AI Safety, une autre institution, qui évoque brièvement le risque d’extinction. Elle a été signée par des personnes que je respecte, comme J’ai Yoshua Bengio, Geoffrey Hinton, des gens tout à fait au fait de ce que sont réellement ces systèmes, et de ce qu’ils sont capables de faire ou de ne pas faire. Cependant, elle a également été signée par les concepteurs mêmes de ces systèmes, Sam Altman par exemple, le PDG d’OpenAI, et d’autres grands acteurs industriels de l’intelligence artificielle de la Silicon Valley. Au début, ils ne l’avaient pas signée, mais étant en désaccord avec le terme « extinction », et voyant qu’ils faisaient partie des signataires, je me suis posé des questions et je ne l’ai pas signée pour cette raison.

Tout d’abord, le terme « extinction » est utilisé au même titre que pour parler de la pandémie ou du risque nucléaire. Je ne pense pas que les systèmes d’intelligence artificielle posent un risque d’extinction. Ils posent de nombreux problèmes, que nous pouvons aborder concernant la démocratie, le lien social, la question de la vérité, etc. Mais l’extinction est un concept extrêmement fort. Plus fort que l’extinction de l’espèce humaine, je ne vois pas. Il y a bien sûr la destruction de la planète entière et de toute vie sur celle-ci, mais si nous sommes éteints, nous ne le verrons pas. C’est donc exagéré et cela rejoint toute la mythologie autour de la super intelligence et de ses conséquences. Ce n’est pas fondé, ce n’est pas expliqué évidemment. Le terme « extinction » ne convient pas. Et le fait que ceux qui produisent ces systèmes signent une telle pétition devrait nous interpeller. Pourquoi celui qui produit un système et le met sur le marché dit-il en même temps qu’il peut provoquer l’extinction de l’espèce humaine ? Par exemple, ceux qui produisent de l’énergie nucléaire et construisent des centrales nucléaires, ou ceux qui fabriquent des bombes atomiques, ne disent pas « attention, cela peut provoquer l’extinction de l’espèce humaine ». Ils affirment qu’ils vont contrôler l’usage, etc., et les risques vont être gouvernés et maîtrisés. Il y a donc quelque chose d’original là, et une contradiction flagrante entre produire un poison, si je peux utiliser cette métaphore, et affirmer en même temps que c’est un poison extrêmement dangereux. Pourquoi ne pas arrêter simplement de le produire dans ce cas ?

Et donc, je pense que ce qui est sous-jacent à cette signature – parce qu’en parallèle il y a d’autres déclarations sur la réglementation de l’intelligence artificielle, qui commence à prendre une certaine dimension, ce n’est pas qu’en Europe qu’on en parle, on en parle au G7, on en parle dans la Silicon Valley également –, et eux, les producteurs de ces systèmes commencent à parler de réglementation et de besoin de nécessité de réglementation. Donc, je pense que cette opération, c’est aussi pour se positionner dans la conception de la gouvernance ou de la réglementation internationale de ces systèmes, afin d’influencer de quelle réglementation nous parlons, et finalement d’être des acteurs de cette réglementation, au même titre que les gouvernements et les États. Donc, finalement, évidemment, il s’agit d’essayer de contrôler les différentes orientations. Je vais m’arrêter là parce que la question était importante, mais il était aussi important de développer un peu la façon dont ça s’est passé, pourquoi il y a eu ces appels, et finalement où on en est aujourd’hui. Aujourd’hui est un jour particulier, parce que le Parlement européen vote aujourd’hui sur son texte du règlement européen. 

Hubris des entrepreneurs annonceurs de l’extinction

[20.06] Daniel Andler : Je voudrais poser à Raja deux questions. Une sur ce qu’il vient de dire à l’instant, sur cette question de l’extinction. Une hypothèse psychologique plutôt qu’institutionnelle sur ce qui peut motiver des Altman et compagnie à annoncer l’extinction. C’est aussi se donner à eux-mêmes une importance démesurée. Ils sont, au fond, ceux qui, par leur génie entrepreneurial, technologique et scientifique, sont en mesure, en quelque sorte, de provoquer l’extinction. Alors évidemment, ils disent : « mais ce n’est pas ce qu’on veut faire, mais voyez, on en est capables. Donc, on est vraiment les gens les plus puissants du XXIe siècle, on bat les Oppenheimer, etc. » Donc, je pense qu’il y a aussi une dimension de « se monter le bourrichon », si je puis m’exprimer ainsi, avec cette idée d’extinction. Qu’est-ce que tu penses de cette idée psychosociale ?

[21.11] Raja Chatila : Alors effectivement, ces entrepreneurs sont connus pour leur hubris, et effectivement, là on atteint un niveau assez important dans une croyance qu’ils peuvent avoir sur leur toute-puissance. Tu as raison de considérer cette dimension, parce qu’elle est importante dans leur comportement. C’est-à-dire qu’ils ont certainement l’impression de pouvoir influencer l’humanité (ce n’est pas complètement faux, d’une certaine façon) d’une manière tellement profonde et globale que, oui, psychologiquement, comme tu dis, ça leur est monté un peu à la tête et ils croient peut-être effectivement qu’ils ont des capacités importantes, y compris celle de l’extinction de l’humanité, se mettant au même niveau que les concepteurs de la bombe atomique. Je pense que c’est un élément qui en plus rejoint probablement une idéologie transhumaniste sous-jacente qui pénètre beaucoup ces grands entrepreneurs de la Silicon Valley. Oui. 

Comprenons-nous bien ces systèmes ?

[22.44] Daniel Andler : Et si je peux, avant de rendre la parole à Mehdi, pour revenir au début de ton exposé, qui était tout à fait pertinent et particulièrement clair, je te remercie, tu as présenté les modèles génératifs de manière très sobre, en quelque sorte, en disant que nous avons fait pour le langage ce que nous avions fait auparavant pour les images, pour les raisons que tu as évoquées. C’était difficile, mais nous avons surmonté les difficultés techniques et maintenant nous disposons d’un instrument qui produit un effet massif. Comme tu l’as très bien dit, les gens en général trouvent que quelque chose qui converse, qui parle avec pertinence, ressemble beaucoup à un être humain, avec son intelligence, et c’est très impressionnant. Je crois que tu as mentionné à juste titre que c’est très impressionnant non seulement pour le grand public, mais aussi pour nous, les chercheurs, les philosophes, les technologues, les scientifiques qui étudions ces systèmes.

Cependant, il y a une chose que tu n’as pas dite et sur laquelle je voudrais t’interroger. Il m’a semblé que tu as donné l’idée qu’au fond on comprenait bien ces systèmes. Or, nous ne les comprenons pas si bien que ça. Je voulais t’interroger là-dessus et aussi te poser une question qui me tourmente personnellement. Je n’arrive pas à comprendre comment ChatGPT arrive à distinguer l’objet et les méta-instructions. Autrement dit, comment est-ce qu’il parvient à comprendre que lorsqu’on lui dit « fais-nous un exposé de la relativité générale pour des personnes qui ne comprennent pas les mathématiques » ou « écris un sonnet érotique à la manière de la Déclaration des droits de l’homme », il doit distinguer que l’objet est le sonnet érotique ou la relativité générale, et qu’il doit tenir un discours sur cet objet, mais le faire dans un certain style, d’une certaine façon. Il arrive d’une certaine façon à ségréger les deux types d’instructions. Je n’arrive pas à comprendre comment il parvient à faire cela.

[25.18] Raja Chatila : Alors, évidemment je ne sais pas tout, loin de là, sur le fonctionnement de ChatGPT, et je ne peux pas répondre de manière bien argumentée sur la façon dont il analyse les phrases, qui peuvent être longues et complexes, pour répondre. Mais c’est aussi de l’ordre de quelque chose qu’on sait faire, qui est l’analyse des phrases, avec une structure sujet-verbe-complément, etc., et le parsing des phrases doit avoir des instruments. C’est une interface finalement. C’est l’interface de l’agent conversationnel, quand on interagit avec lui. Cela ne nécessite pas encore toute la puissance du modèle Transformer qui est derrière pour interpréter la phrase, le sujet, de quoi l’on parle, etc. Ensuite, et là je ne sais pas exactement à quel moment, assez rapidement après l’analyse de la phrase, il y a effectivement l’appel au modèle et donc la puissance des corrélations qui vont être faites pour produire la réponse. Je n’ai pas vu de publications spécifiques à ce sujet, mais je pense qu’il y a d’abord cette interface, qui peut être relativement classique, même si elle est puissante, d’interprétation des phrases, des prompts, et tout de suite augmentée par la capacité corrélative et la génération ensuite.

[27.34] Daniel Andler : D’accord. Merci, merci. D’ailleurs, tu as mentionné que tu n’avais pas tout lu, ce qui est compréhensible car il est impossible de tout lire étant donné l’immensité de la littérature. Cependant, il faut également souligner que certaines parties de cette littérature sont dissimulées en raison du secret industriel, ce qui peut nous mettre mal à l’aise en tant que chercheurs.

[27.40] Raja Chatila : Oui. Heureusement, d’une certaine façon, il n’y a pas que ChatGPT, il y a aussi d’autres systèmes génératifs, qui adoptent une approche de logiciel ouvert et sont donc un peu plus transparents, même si les concepteurs ne divulguent pas tous les mécanismes sous-jacents. Aujourd’hui, on parle beaucoup de ChatGPT en raison de sa puissance et du choc initial qu’il a créé, ce qui lui a valu la première place. Cependant, il existe effectivement d’autres systèmes qui arrivent sur le marché ou qui sont déjà là.

En plus, cela me donne l’occasion de parler des questions liées aux langues utilisées, car ces systèmes sont principalement basés sur l’utilisation d’un corpus en anglais. Il y a de nombreux projets visant à développer des systèmes génératifs dans différentes langues, comme le français, d’autres langues européennes, etc.

D’ailleurs, aujourd’hui (ou plutôt demain), lors du salon Vivatech, le président de la République devrait s’exprimer et aborder ces questions, notamment celles liées à l’IA générative, mais aussi des questions de souveraineté. Ceci est un concept qui englobe de nombreux aspects, en particulier la défense de la culture et de la langue française. Nous assisterons certainement à des développements de systèmes, disons, encouragés par différents gouvernements pour défendre leur langue et se faire une place dans la diffusion de ces technologies. On parle peu de la Chine dans ce contexte, car la Chine a aussi développé des systèmes, principalement en mandarin. Cependant, bien sûr ces systèmes ne sont pas diffusés en Occident. Cependant, et c’est un point essentiel, les corpus étant surtout en anglais, ils véhiculent la culture anglo-saxonne. Même s’il y a un pourcentage beaucoup plus faible de textes dans d’autres langues comme le français, l’allemand, etc., il s’agit d’un corpus plus restreint et choisi, donc il n’est pas nécessairement représentatif de toute la culture de ces langues. Parfois, l’anglais est également utilisé comme langue pivot, c’est-à-dire que l’on traduit vers l’anglais, puis on retraduit dans une autre langue, ce qui fait que, par ce mécanisme (c’est pour ça que je parle de souveraineté) on peut avoir des systèmes qui vont diffuser encore plus la culture et la manière de penser (disons, puisque c’est exprimé dans les textes) anglo-saxonnes. C’est un enjeu important.

Illusion d’intelligence des systèmes conversationnels

[30.51] Mehdi Khamassi : J’aimerais vraiment revenir sur quelque chose que tu as soulevé, à savoir l’illusion d’intelligence que peuvent susciter ces systèmes conversationnels. Ils donnent l’impression de comprendre les sujets dont ils parlent, ce qui peut poser des risques en induisant une confusion chez les utilisateurs. Cette illusion de compréhension peut rendre plus difficile la distinction entre ce qui peut être vrai et ce qui peut être faux dans ces systèmes.

Il me semble que tu as mentionné un point lors de nos discussions au sein du laboratoire qui mérite d’être partagé ici, à savoir l’incapacité de ces systèmes à comprendre et à raisonner sur les implications des énoncés qui manipulent des événements dans le monde physique. Par exemple, un énoncé qui parle du déplacement d’un objet dans l’espace et des conséquences physiques que cela entraîne semble être hors de portée de ces systèmes. Pourrais-tu en dire plus à ce sujet, s’il te plaît ?

[31.47] Raja Chatila : Oui, c’est un point essentiel, il me semble, car j’affirme, et on le sait, ces systèmes ne comprennent pas ce qu’ils disent. Ce problème de la sémantique, de la signification, est important en intelligence artificielle depuis toujours. Mais là, avec l’impression qu’on a quelque chose de construit dans la langue, on a parfois l’illusion que le système comprend de quoi il parle. Mais non, il ne peut pas réellement comprendre de quoi il parle. C’est inhérent à la nature du système, parce que ce sont des systèmes corrélatifs, et non pas causaux, capables de corréler des éléments, de décrire et de reconnaître, par exemple sur une image un objet particulier, sans que le système sache réellement ce que c’est.

Je prends l’exemple classique du traitement d’images avec un chat. Le système peut reconnaître des chats dans toutes les directions après avoir été entraîné sur une grande quantité de données étiquetées comme étant des chats. Cependant, cela ne suffit pas, car le système ne sait toujours pas ce qu’est un chat. Il ne possède jamais l’expérience phénoménologique du chat. Contrairement aux êtres humains qui vivent dans le monde réel, dans le monde physique, qui sont soumis aux contraintes du monde physique et qui interagissent avec lui, et dont les concepts les plus abstraits sont nés, ont été élaborés à partir d’une connaissance du monde physique.

Peut-être que Daniel, en tant que philosophe, ne sera pas d’accord, mais je pense tout de même qu’un cerveau dans un vase, même s’il est connecté uniquement à des yeux ou des caméras, aura beaucoup de mal à élaborer des concepts du monde physique qu’il observe. En tout cas je ne vois pas comment il pourrait y arriver. L’histoire des sciences s’appuie sur l’expérimentation, l’hypothèse scientifique, et pas seulement sur l’observation pure et simple. Toute cette démarche d’acquisition de connaissances, et d’abstractions des connaissances en une théorie, qui a un pouvoir explicatif et prédictif, s’est construite justement grâce à l’interaction avec le monde. Et à partir de là, on peut élaborer des concepts aussi complexes et aussi peu clairs que la mécanique quantique ou la dignité humaine, qui ne sont pas directement observables dans le monde, mais peuvent être construits, élaborés.

Donc, cette question de sémantique est essentielle, et pour moi l’absence de sémantique est inhérente à ces systèmes. En d’autres termes, quand ChatGPT dit « chat », il ne sait pas de quoi il parle. Cela pose un problème, car en ne sachant pas de quoi il parle dans le monde réel, le système peut dire des choses, produire des informations ou des textes issus de ces corrélations qui ne sont pas seulement inexactes, mais qui peuvent également amener les êtres humains à agir de manière inappropriée, voire dangereuse.

Entre parenthèses, c’est peut-être de là que vient l’histoire de l’extinction, c’est-à-dire que les systèmes peuvent convaincre les humains de s’éteindre d’une certaine façon. Mais ce qui commence à m’interroger sur ce que je viens de dire, en fait, c’est que des gens comme Geoffrey Hinton (de nouveau l’un des grands acteurs des systèmes d’intelligence artificielle modernes basés sur l’apprentissage, etc.) disent que ce n’est pas si clair que cela que ces systèmes ne peuvent pas élaborer une sémantique. Ce n’est pas forcément exactement la même que la nôtre, mais le fait que ce soient des systèmes purement corrélatifs ne signifie pas nécessairement qu’ils ne peuvent pas avoir une sémantique définie. Après tout, et là c’est moi qui le dis, pas lui, nous [humains] élaborons des théories, mais c’est bien parce que nous observons des corrélations que nous essayons de creuser davantage pour les comprendre. Ainsi, la corrélation en soi peut être porteuse d’un certain sens, d’une certaine sémantique. Je suis à moitié convaincu, enfin, plutôt beaucoup moins que la moitié, car on peut observer des pommes tomber toute la journée, élaborer la théorie de la gravitation c’est une autre affaire, et cela fait appel à ce pouvoir d’abstraction qui est réellement absent dans ces systèmes. Néanmoins, je crois qu’il faut peut-être creuser un peu plus cette question du passage du corrélatif au sémantique.

Et donc je reviens un peu sur le fondement de la sémantique, parce que la sémantique dans les langues, ce sont des concepts complexes. Tout le monde n’est pas d’accord sur la manière dont nous [humains] élaborons la signification des mots et du texte. Certains linguistes affirment que le contexte d’un texte, c’est-à-dire les mots qui se trouvent dans le même texte ou dans son voisinage, suffit à définir la sémantique d’un mot. Par exemple, quand je parle de mon chat, j’utilise des verbes, des adjectifs, des qualificatifs, et ce sont ces mots qui entourent le mot « chat » qui vont déterminer sa signification dans le cadre de mon discours. Et si j’ai plusieurs discours différents sur le chat, peut-être que, globalement, ce réseau de discours différents sur le chat est la sémantique du chat.

[39.19] Daniel Andler : Si je peux me permettre, cela m’intéresse beaucoup, car dans mon bouquin (ce n’est pas de mon bouquin qu’on parle, mais ça m’intéresse beaucoup), j’ai développé un peu cette idée. Justement, ce que j’appelle la « cécité sémantique » semble être similaire à ce que tu dis, à savoir que les systèmes ne savent pas vraiment qu’il s’agit d’un chat, mais plutôt qu’ils le reconnaissent comme une étiquette. J’appelle cela la « cécité sémantique » et je dis que finalement ce n’est pas aussi clair que ça, effectivement exactement selon ce que tu viens de développer à l’instant. Cela m’intéresse de savoir que Hinton lui-même a commencé à réfléchir à cela, et comment nous-mêmes parvenons à comprendre certains aspects de la sémantique. C’est vraiment très intéressant, et je crois que beaucoup de choses vont se développer, j’espère, sur cette question qui est assez obscure et profonde. C’est particulièrement intéressant pour les philosophes, je dois le dire, mais pas seulement.

Bientôt un remplacement de toutes sortes de métiers ?

[40.17] Daniel Andler : Je profite du fait d’avoir la parole, parce qu’on a très peu de temps, pour poser la question suivante : nous savons donc que ces systèmes ne sont pas fiables, qu’ils peuvent avoir ce qu’on appelle « des hallucinations », c’est-à-dire que par moments ils inventent des trucs ; au milieu de quelque chose de parfaitement correct, tout à coup ils sortent quelque chose qui n’existe pas, qui est mystique, qui est complètement erroné ou complètement déplacé. Crois-tu que ces systèmes pourront peu à peu s’améliorer au point de devenir fiables ? Si c’est le cas, cela aura un impact sur les médecins, les juristes et toutes sortes de métiers ; ils pourront faire faire par un super ChatGPT ce qu’ils font actuellement avec leur intelligence humaine. Est-ce que tu vois une limite de principe ? Qu’est-ce que tu en penses ?

[41.07] Raja Chatila : Je crois qu’il y a une limite de principe, et je crois qu’il y a en même temps moyen de repousser cette limite, effectivement. La limite de principe est toujours la même : c’est l’aspect corrélatif. Aujourd’hui, sans même parler de ChatGPT, etc., mais on y reviendra, tous ces systèmes qui reposent sur l’analyse de données pour établir des corrélations entre les éléments constitutifs de ces données, les classer, générer de nouveaux éléments, etc., tous sont basés sur de la statistique. Certes, une statistique très élaborée, une grosse fonction mathématique qui est le réseau de neurones, qui élabore ce modèle statistique. Ça n’en reste pas moins une statistique. Cela signifie que ces systèmes construisent un modèle qui est un espace dans lequel il existe des vecteurs représentant les données qui ont été analysées et classées dans certaines zones de cet espace. Le système interprète ensuite ces données en mesurant une distance entre deux éléments dans cet espace de très grande dimension. Si la distance est faible, cela signifie que ces objets sont voisins, voire confondus. Or, cette proximité, qui est fondée sur une corrélation, n’est pas toujours appropriée ou réelle dans la réalité. Nous pouvons voir de multiples exemples où une image d’un scooter sur une route avec un ciel bleu et une prairie à l’arrière est interprétée avec une certitude (c’est-à-dire un degré de confiance, plus exactement) de 99% comme étant un scooter. Et on change légèrement l’attitude du scooter et l’interprétation devient un parachute avec un degré de confiance de 100%. On voit bien que là il y a quelque chose qui s’est passé dans cet espace, où la confusion n’était pas due à l’observation du scooter, mais peut-être du paysage qui est derrière. Cette proximité a joué. Ainsi, il y a un problème inhérent à ces systèmes : on peut tout faire, mais dès lors que c’est statistique, et même avec des pourcentages aussi élevés que 99%, les systèmes peuvent se tromper, se tromper de manière non prévisible, et se tromper avec aplomb, en disant « je suis sûr, c’est 1 ! ». Et ça, ça va rester. Cependant, il y a une possibilité de progrès grâce à l’apprentissage continu. Si nous injectons une correction dans le système suite à une corrélation erronée, par exemple en disant que ce n’est pas un parachute mais un scooter (ce que je dis est bien sûr imagé), cela signifie que nous pouvons modifier les distances dans cet espace de façon à améliorer la classification. Bien sûr, il s’agit de systèmes hautement non linéaires, donc la perfection ne sera jamais atteinte, mais on peut peut-être faire des ajustements. A long-terme, je pense que si on adopte ce type d’approches, ce qu’on appelle l’apprentissage continu, qui n’est pas trivial, alors on peut imaginer que ces systèmes vont s’améliorer.

Alors déjà dans ChatGPT il y a quelque chose qui a été introduit : vous lui posez une question au lieu de demander de faire quelque chose et il produit un résultat faux. Par exemple, dans un raisonnement logique ou un calcul, il peut donner une réponse erronée. Eh bien, l’ingénierie du prompt, consiste à dire maintenant « non, ça c’est faux », et de procéder pas à pas, « step by step » en anglais. Donc on va lui donner finalement les démarches, en d’autres termes on va guider les corrélations qu’il faut adopter pour arriver à la solution. Lorsqu’on lui donne ces indications, il donne de bonnes réponses.

[46.21] Daniel Andler : Passionnant !

[46.23] Raja Chatila : Cependant, je m’empresse de dire qu’il ne faut surtout pas comparer cela à la manière dont on explique des choses à un autre être humain ou à un enfant. Ce n’est pas du tout comme ça qu’il faut voir les choses. Mais il y a quand même l’idée que si nous pouvons guider le traitement que le système effectue dans le but de l’améliorer, alors il va s’améliorer. L’approximation sera meilleure jusqu’à un certain point, peut-être, où cela deviendra tellement meilleur, c’est-à-dire que ça ne sera pas 99% mais avec plusieurs 9 derrière, que cela pourrait être quasiment acceptable. Acceptable en termes de résultats, car de toute façon, notre connaissance de la réalité n’est jamais parfaite, et nous pouvons l’admettre, car tout dépend aussi de la manière dont nous percevons et acceptons les choses. Je sais très bien que si je monte dans un avion il y a un risque qu’il s’écrase, mais ce risque est tellement mineur que je le prends. Donc nous pouvons croire beaucoup de choses, et dans le domaine de la médecine, puisque la médecine a été évoquée, ce n’est pas une science exacte, il y a toujours des risques, on le sait bien. Mais si les risques sont vraiment minorés, on pourra peut-être prendre ces risques. Ce qui veut dire que ces systèmes ne sont pas inutiles, ils ne doivent pas être rejetés, comme ça, d’un coup en disant « non, non, ça ne va pas, ça ne va pas ». Il faut au contraire soulever leurs limites pour justement les améliorer et les utiliser surtout, surtout à bon escient.

Juste pour conclure sur la médecine, et cela est lié à notre conversation, il y a un article récent dans le New York Times qui dit que certains médecins ont utilisé ChatGPT, mais qui ont bien vu que côté médical, à proprement parler, ça n’était pas extraordinaire. En revanche, cela a amélioré leur capacité à communiquer de manière empathique avec les patients. En d’autres termes, on a appris l’empathie d’une machine. Je trouve ça à la fois absolument (rires) absolument choquant, finalement, sur ce que ça révèle de l’état de l’empathie, et en même temps, cela pose des questions.

[48.52] Daniel Andler : Merci.

Risques réels, dont la fracturation de la société

[48.58] Mehdi Khamassi : Nous avons encore quelques minutes pour conclure sur les risques réels. Si on ne reste pas que du côté des risques existentiels, qui peuvent susciter des réactions émotionnelles voire même, comme tu l’as dit, nous empêcher d’envisager sereinement les problèmes de gouvernance pour légiférer, on peut se poser la question de quels sont les risques réels, qu’il faut vraiment prendre en main, et quelles régulations il faut envisager.

Daniel Dennett écrivait récemment qu’un des problèmes majeurs pour les sociétés humaines est la contrefaçon ; contrefaire un discours, se faire passer pour un humain, ce qui peut saper la confiance et les fondements de la société aussi fortement que pouvait l’être la contrefaçon de la monnaie. Naomi Klein, dans un autre texte récent, souligne le problème du droit d’auteur quand on entraîne ces systèmes sur des œuvres générées par d’autres, des êtres humains, pour ensuite pouvoir générer de nouveaux contenus qui leur ressemblent, à la manière de, pouvoir faire des profils là-dessus. Dans le même temps, les personnes qui ont créé les œuvres initiales et ont contribué à leur entraînement ne sont pas rémunérées, voire même leurs œuvres deviennent moins visibles. Est-ce que, pour toi, cela fait partie des risques importants sur lesquels il faut légiférer ? Et quels autres risques tu vois ?

[50.01] Raja Chatila : Le risque de la contrefaçon, c’est le risque de la vérité. Je l’interprète comme ça, un peu. La contrefaçon, c’est imiter quelque chose qui existe par ailleurs et qui est vrai, à l’aide de quelque chose qui est faux. Je ne sais pas dans quel sens Daniel Dennett l’a utilisé, mais c’est peut-être un peu limitatif par rapport au problème de l’invention, comme vient de le dire Daniel sur les hallucinations. Il s’agit plutôt de l’invention de la vérité. Ce n’est pas de la contrefaçon, c’est du faux, du faux inventé, mais pas de l’imitation du vrai. C’est quelque chose de plausible néanmoins, mais complètement différent. Ce n’est pas simplement répliquer un sac en cuir d’une marque célèbre avec une matière peu noble, c’est vraiment quelque chose qui a été complètement inventé. Je ne sais pas si le terme de « contrefaçon » est tout à fait approprié dans ce contexte. Mais oui, je pense que ce risque est profond pour nos sociétés.

Une société donnée, et donc un pays en général, voire un ensemble de pays, une civilisation d’une certaine façon, est fondé sur un certain nombre de croyances, de concepts, de faits réels historiques ou quotidiens, de suppositions qui sont partagées. Elles ne sont pas listées quelque part, mais elles sont partagées. Ce socle commun est un liant de la société, car il nous permet d’être d’accord sur un minimum, sur ce socle, et à partir de là, d’avancer ensemble. Si ce socle est fracturé, remis en question, fracturé parce que chacun a le sien, finalement, étant donné qu’il a interagi avec un système génératif et et que le système lui a répondu quelque chose dans lequel il a confiance, dans lequel il croit, mais qui n’est pas avéré dans la réalité, et en plus, le système n’a pas répondu la même réponse à l’un ou à l’autre, alors notre socle est fracturé. C’est comme la banquise qui commence à se fracturer, on ne peut plus établir un pont, un lien, une possibilité d’être ensemble, d’être d’accord sur un minimum. Et cette fracture peut fracturer la société dans son ensemble. Donc, là il y a un danger réel. Une extinction ? Je ne crois pas. Mais un réel danger. A mon avis, on a vu les éléments ou les prémices dans l’assaut du Capitole. Ce n’était pas de l’IA générative, mais plutôt des réseaux sociaux, qui ont provoqué le fait que des gens croient dur comme fer quelque chose que quelqu’un a dit, mais qui s’est propagé, qui a constitué pour eux cette expression oxymorique de la « vérité alternative ». À partir de ce moment-là, oui, il y a un danger réel pour nos sociétés. Déjà qu’il y a très peu de confiance, par exemple, dans les personnalités politiques. Cela peut encore s’aggraver, et cela ne sera plus seulement une absence de confiance dans les personnalités, ce sera une absence de connaissances communes et de confiance dans les faits, dans la réalité des choses, de ce qui s’est passé, de ce qui se passe, des événements. Et cela peut être extrêmement dangereux. C’est l’un des sujets les plus importants, je crois, la question de la vérité. Nous avons parlé de la sémantique, mais nous avons aussi évoqué cette question de la vérité. Effectivement, sur ce plan je suis d’accord avec Denett ; c’est une menace assez majeure. C’est pourquoi il est nécessaire de gouverner, de savoir gouverner et de réglementer ces systèmes, bien que ce ne soit pas très clair comment le faire concrètement.

[54.19] Mehdi Khamassi : Merci beaucoup Raja, je pense que ce sera le mot de la fin, puisqu’il est temps de retourner à nos occupations. En tout cas, voilà de quoi contribuer à faire réfléchir et à entretenir ces débats. Donc à très bientôt ! 

[54.30] Raja Chatila : Merci à vous !

[54.32] Daniel Andler : Merci beaucoup, Raja. C’était passionnant !