Cette vidéo fait partie du cycle d’auditions TESaCo sur l’IA et la Robotique.
Raja Chatila est professeur émérite de robotique, d’intelligence artificielle et d’éthique à Sorbonne Université. Auparavant, il a été directeur de recherche au CNRS et a dirigé deux grands laboratoires du CNRS : le Laboratoire d’Analyse et d’Architecture des Systèmes (LAAS) à Toulouse, et l’Institut des Systèmes Intelligents et de Robotique (ISIR) à Paris. Ses domaines de recherche portent principalement sur la robotique autonome, et la robotique cognitive et interactive. Président de la société savante IEEE Robotics and Automation Society de 2014 à 2015, il préside une initiative internationale IEEE pour l’éthique dans l’intelligence artificielle et les systèmes autonomes. Il a participé à plusieurs travaux au niveau national et européen sur les implications éthiques et sociétales de la robotique et est membre du Comité National Pilote d’éthique du Numérique.
Deuxième partie de l’audition : Action conjointe entre un robot et un humain
[0.12] Mehdi Khamassi : Pour revenir sur les architectures cognitives, qu’on a évoquées précédemment, il y a une question de Jacopo Domenicucci, qui aurait beaucoup aimé participer mais qui n’a pas pu être là, qui s’intéresse beaucoup à tes travaux sur les architectures cognitives, et notamment dans quelle mesure cela permet l’action conjointe dans l’interaction entre un robot et un humain. Je lis sa première question : quelle différence y a-t-il dans la conception technique mais aussi dans les défis d’intégration sociale et éthique, entre les agents artificiels avec lesquels nous pourrions entreprendre réellement des actions conjointes, et des agents artificiels avec des niveaux d’intelligence (ou d’autonomie, d’apprentissage) élevés mais incapables de ce type de coordination avec l’humain ?
[0.56] Raja Chatila : L’action conjointe implique la capacité pour l’agent de comprendre l’être humain (j’utilise là le terme comprendre dans un sens faible). Si on ne peut pas comprendre, c’est-à-dire interpréter ce que fait l’autre, avoir un modèle de comportement de l’autre, avoir une théorie de l’esprit qui permette d’anticiper et de se mettre à la place de l’autre, on ne peut pas faire vraiment faire de l’action conjointe. Il faudrait que le système qui interagit avec les êtres humains puissent disposer d’un tel modèle, pour avoir cette théorie de l’esprit de l’être humain : à la fois un modèle physique de ce que l’être humain est capable de faire, pas seulement ce qu’il pense, donc un modèle physique géométrique, un modèle des systèmes de perception humains, un modèle qui lui permette d’agir de façon à ce que l’être humain le comprenne et puisse aussi coopérer avec lui. Si par exemple je veux tendre un objet à un être humain, je vais placer cet objet dans l’espace de travail de l’être humain que je connais, de manière à ce que l’être humain puisse le voir et le prendre. Je ne vais pas le poser au-dessus de sa tête. Tout ça veut dire des modèles, des modèles calculatoires qui peuvent être appris ou préprogrammés pour partie, des modèles de l’être humain qui sont nécessaires pour cette interaction.
Mais il faut aussi avoir un modèle des comportements, des actions (« qu’est-ce que l’être humain est capable de faire ? »). Mais si on parle d’intégration sociale et éthique, il faut aussi avoir une représentation des valeurs humaines, une représentation des préférences, et le cas échéant, avoir même une interprétation contextuelle. En effet, les valeurs sont en tension les unes avec les autres. Parfois, il y a des priorités et selon la situation l’être humain pourra avoir des priorités différentes. Donc comment comprendre cela ? C’est là qu’il y a une limite quand même à cette capacité d’intégration sociale. Mais c’est là aussi où il y a une nécessité que la machine puisse avoir une certaine capacité de raisonnement, d’élaboration de modèles de comportements, qui puisse tenir compte de cela. S’il n’y a pas cette capacité, évidemment les systèmes artificiels, les agents artificiels en question, ne pourront jamais véritablement se coordonner avec les êtres humains. Ils pourront aller explorer Mars tous seuls le cas échéant. Mais ils ne pourront pas avoir cette action conjointe. L’action conjointe exige un minimum de compréhension de ce qu’est un être humain, de ses capacités, de ses préférences, de ses valeurs. C’est contextuel et c’est donc beaucoup plus compliqué qu’on pourrait le penser.
Nous-mêmes nous avons travaillé sur ces sujets-là dans un cadre très limité. Il faut bien le dire, car on a souvent tendance à trop généraliser à partir de nos propres travaux. Nous y travaillons dans un cadre où nous avons simplement essayé de démontrer que certains éléments que je viens d’exposer sont possibles et semblent aussi être validés par des études psychologiques sur les êtres humains. Nous employons des architectures qui comportent plusieurs niveaux : un niveau de décision, un niveau d’exécution, de contrôle, et un niveau fonctionnel des capacités de base. Cette architecture cognitive artificielle devrait pouvoir rendre compte de ces différents éléments.
Lien avec les architectures cognitives humaines
[5.54] Mehdi Khamassi : Ça permet justement de rebondir avec la deuxième question de Jacopo, qui justement se demande quel rapport tu vois, au niveau des stratégies de recherche, entre l’étude des architectures cognitives humaines et artificielles (par exemple robotiques). Est-ce qu’il y a un éclairage réciproque ou bien pour l’instant il s’agit simplement d’un rapport d’imitation de l’humain par la robotique ?
[6.08] Raja Chatila : Ah non, bien sûr qu’il y a un rapport réciproque. En robotique on va élaborer des méthodes computationnelles qui pourraient très bien, pour certaines d’entre elles, être utilisées pour expliquer certains phénomènes ou certains comportements dans des architectures cognitives humaines. La formalisation et la faisabilité, c’est-à-dire la possibilité de mise en œuvre, font que le robot devient un outil pour montrer à la fois la possibilité théorique au moins, et éventuellement au-delà, les limites de certaines capacités humaines. Pourquoi ? Parce que dans le cerveau il y a quand même des capacités calculatoires : du raisonnement Bayésien par exemple ; un filtrage de Kalman, qui est aussi une forme de traitement Bayésien. Tout ça peut être mis en œuvre dans des machines, dans des robots, et permettre de valider ou d’inspirer la recherche sur les architectures cognitives humaines.
En même temps, dans l’autre sens, bien évidemment, n’oublions pas que notre programme n’a qu’une seule source d’inspiration, qu’un seul modèle : ce sont les architectures cognitives humaines. On ne les connait pas bien, qu’on ne maîtrise pas bien, mais qui peuvent évidemment inspirer, et qui le font très souvent, des choix que nous faisons dans la conception de systèmes artificiels. Pour moi ce n’est pas de l’imitation. Je préférerais le terme inspiration. D’abord ce ne sont pas les mêmes mécanismes nécessairement. Et ce ne sont pas non plus les mêmes résultats qu’on va obtenir. Les concepts pourraient être similaires, mais il ne s’agit pas d’imitation. On voit très rapidement, d’ailleurs, que quand on essaie de mettre en œuvre certains concepts sur la machine, sur le robot, on va devoir faire des choix qui ne sont pas nécessairement les mêmes que ceux qui seraient faits si on voulait imiter strictement ce qui se passe dans les systèmes naturels.
Le cerveau humain et les robots suspendent-ils la tâche en cours de la même manière ?
[9.12] Daniel Andler : Est-ce que je peux intervenir ? Je n’y avais pas pensé mais tout à coup j’ai envie de poser une question sur justement quelque chose qui est modélisé chez l’homme. Je n’ai pas du tout la compétence pour savoir si le modèle est plausible, mais j’avais suivi les travaux d’Etienne Koechlin, qui travaillait sur la question de savoir comment est-ce le cerveau fait pour suspendre l’exécution d’une certaine tâche, pour veiller à exécuter une autre tâche qui par exemple est plus urgente, ou pour des raisons d’attention, et de revenir à la tâche d’origine. Ça je suis sûr que c’est un problème qui se pose aussi en robotique. Un robot peut être en train d’essayer d’explorer quelque chose, mais tout à coup il y a un problème mécanique, un caillou ou je ne sais quoi, donc il va s’occuper de ça et puis revenir à la tâche initiale. Est-ce qu’il y a des mécanismes en robotique qui permettent au robot autonome de se débrouiller dans une situation comme celle-là ?
[10.10] Raja Chatila : Alors, tout à fait ! C’est une excellente question parce que ça me rappelle beaucoup de choses qu’on a fait dans le passé dans le domaine de la robotique. C’est le fameux problème entre les comportements et les actions délibératives, orientées vers un but, et les actions réactives qui sont nécessaires quand il y a un événement qui se passe dans l’environnement et dont il faut tenir compte. Il existe de multiples exemples, ne serait-ce qu’en termes de déplacement : je veux aller quelque part, et puis il y a un événement qui va m’empêcher d’y aller, par exemple un obstacle qui se présente devant moi. On simplifie ça en disant « évitement d’obstacle ». Non ! Il ne s’agit pas d’évitement d’obstacle parce que je pourrais être obligé de choisir un chemin complètement différent. Et puis chemin faisant, comme le robot doit être conçu pour effectuer plusieurs objectifs, et pas seulement un seul, moi robot je peux m’apercevoir que je suis arrivé à proximité d’un lieu où je pourrai exécuter un autre objectif que j’avais dans ma pile d’objectifs. Est-ce que je le réalise, quitte à revenir ensuite à mon objectif initial ? Tout ça ce sont des questions qu’on a rencontrées depuis très longtemps en robotique. Des mécanismes pour faire cela existe bien sûr. A la limite on pourrait même dire que c’est quelque chose de base en informatique. L’ordinateur multitâches, le système d’exploitation multitâches, il gère finalement en permanence la capacité de réaliser plusieurs tâches en partageant le temps, ou bien en mettant des priorités, ou en faisant des interruptions. Donc il y a plusieurs mécanismes de base pour cela. Est-ce qu’il faut interrompre une tâche pour en prendre une autre ? Est-ce qu’il faut l’insérer, donc essayer d’optimiser finalement l’ensemble des tâches ? Il y a beaucoup de mécanismes et beaucoup de méthodes pour gérer ces problématiques-là.
Très sincèrement, je ne suis pas du tout certain que s’apparente à ce qui se passe dans le cerveau ce qu’on fait pour gérer des systèmes multitâches dans les machines, dans les ordinateurs de manière générale, et dans les robots. Je ne le pense pas d’ailleurs. Mais pour partie oui. En robotique en tout cas, on a vu énormément de travaux pour réaliser des architectures qui soient à la fois délibératives et réactives en même temps.
D’ailleurs, je reviens à Rodney Brooks, que je mentionnais tout à l’heure, parce que dans son approche comportementale, on se retrouvait à donner la priorité à la réactivité par rapport à la délibération. Dans son esprit, plusieurs couches qui étaient toutes bouclées sur l’environnement, au bout du compte pouvaient aboutir, selon lui, aboutir à faire des comportements orientés vers des buts, simplement par des mécanismes d’inhibition ou de désinhibition ; une couche peut en inhiber une autre, mais l’autre va pouvoir réagir étant donné qu’elle est plus bouclée avec l’environnement réel, par exemple lorsqu’elle doit être actionnée pour tenir compte d’un événement imprévu. Donc ces mécanismes d’inhibition finalement étaient un peu complexes, et en réalité on n’a jamais abouti à faire une telle architecture qui soit capable réellement d’être « mise à l’échelle », c’est-à-dire d’effectuer des comportements complexes ; c’en est resté à des comportements limités.
Mais oui, ce problème de gestion des comportements délibératifs et de comportements réactifs est un problème central dans la conception d’architectures robotiques et il y a énormément de travaux dessus, qui ne s’apparentent pas tous à une inspiration des neurosciences.
[15.06] Mehdi Khamassi : D’ailleurs, il y a des petites différences aussi, même s’il y a des processus « d’embranchement », comme les appelle Etienne Koechlin, qui consistent à revenir à un but précédent ou autre, dans ses travaux notamment les plus récents, il montre des limites des capacités de l’humain à faire des embranchements entre plus que deux buts objectifs. Et puis on connait aussi les limites de mémoire de travail en psychologie humaine, qui sont des contraintes qui ne se posent pas sur la machine. Donc pour le coup, ça aussi ça peut aboutir à des différences.
[15.32] Daniel Andler : J’ajoute aussi que la cognition vieillissante se caractérise, semble-t-il, par une difficulté à revenir à la tâche d’origine. Voilà, c’est un de nos handicaps parmi d’autres. (rires)
[15.49] Raja Chatila : Alors est-ce que c’est un problème de mémoire ou c’est un problème d’incapacité à revenir ? Est-ce que ça veut dire qu’on a un registre qui est de plus en plus limité pour pouvoir repartir ? Je fais une comparaison avec une machine, désolé. Ou est-ce que c’est quelque chose qui est perdu ?
[16.18] Daniel Andler : Je crois que c’est autre chose : ça vient du fait, moi j’ai vu ça trop vite et j’oublie beaucoup (rires), mais c’est les travaux de Patrick Lemaire à Marseille, notamment, qui montrent qu’en fait que les stratégies cognitives en général sont assez différentes. J’ai un peu oublié pourquoi. Mais ceci explique que dans beaucoup de tâche ça marche très bien, et dans d’autres les questions d’interruption ne sont pas facilement résolues. Je ne sais plus très bien pourquoi. Mais tout cas il y a une grosse différente, semble-t-il, dans les stratégies de résolution de problèmes.
Vers une IA autonome ou plutôt un attelage humain-machine ?
[16.58] Mehdi Khamassi : Avant de passer à une autre partie de questions qui serait plus sur le déploiement de l’IA dans la société, des questions d’éthique et d’intelligence collective, est-ce que peut-être d’autres membres du groupe voulaient poser des questions sur ces aspects fondamentaux de recherche ?
[17.15] Daniel Andler : Alors je pose la question, une question assez évidente à laquelle Raja peut répondre très vite s’il le souhaite : j’ai essayé en faisant un petit peu le tour de recherches en IA ces derniers temps et je crois qu’il assez clair qu’il y a, disons, une direction qui veut vraiment pousser vers l’IA la plus autonome possible, confier complètement une tâche à l’IA, et une autre [direction], tu as parlé d’Englebarth à un moment de ton audition, Englebarth ou Jordan par exemple, qui parlent vraiment « d’intelligence augmentée », d’un attelage homme-machine, et que c’est ça qui a beaucoup d’avenir, et c’est là-dessus qu’il faut vraiment insister, et arrêter de s’obnubiler sur une intelligence artificielle qui serait autonome et qui ferait tout en l’absence de l’intervention humaine. Est-ce que tu crois qu’il y a un choix à faire ? Est-ce que tu as une préférence entre une orientation vers un attelage homme-machine d’une part, et une orientation vers une IA ou une robotique autonome ?
[18.16] Raja Chatila : La réponse courte, parce que tu m’as demandé une réponse courte.
[18.22] Daniel Andler : Tu peux la faire longue. (rires)
[18.25] Raja Chatila : Je vais élaborer après. La réponse courte c’est l’attelage humain-machine, évidemment. C’est-à-dire la préservation de la décision humaine, aidée par la machine. Alors, la petite entorse que je vois à ça maos qui n’en est pas vraiment : par construction, mais de manière inévitable, il faut laisser la machine agir complètement. Par exemple, si on parle d’une machine qui est bouclée sur l’environnement à une vitesse telle que l’intervention humaine n’est pas possible. A ce moment-là, la machine devient inutile. Par exemple, la voiture à conduite automatisée, typiquement, si elle est complètement développée et utilisée, on ne voit pas très bien l’intervention humaine puisque c’est contradictoire avec l’idée que la voiture conduit toute seule. A ce moment-là c’est à un autre niveau que se passe l’attelage humain-machine. L’homme ne peut pas intervenir directement dans le fonctionnement ni dans la décision de la conduite. C’est dans un cadre plus global que les choses devraient avoir été définies. Mais à part cet exemple ou d’autres de même catégorie, disons (et mon exemple n’est possible que pour une certaine raison, je vais y arriver tout de suite, qui explique pourquoi il vaut mieux toujours l’attelage), il est clair que, tout simplement, la machine ne comprend pas ce qu’elle fait. Cette absence de sémantique fait que les décisions de la machine peuvent être complètement inadaptées, erronées par rapport à la situation réelle, au contexte. Je parle de contexte sous forme d’interprétation sémantique. Il n’y a que l’homme qui peut donner ce sens. Et la machine peut l’aider à prendre ses décisions. Ceci est vrai dans beaucoup de domaines.
Je prends un autre exemple qui est celui de l’imagerie médicale, où on dit aujourd’hui que les systèmes de deep learning sont capables de faire des traitements d’image très performants et d’interpréter par exemple sur ces images s’il y a des tumeurs cancéreuses ou non cancéreuses, etc. Est-ce qu’on doit laisser la décision finale à la machine ? Évidemment non. Et ce n’est pas seulement parce que le domaine est risqué et qu’il y va de la vie des patients. C’est aussi parce que, par définition, la machine ne va voir que ce sur quoi elle a été entraînée. Elle a été entraînée sur certains types de tumeurs, donc elle va peut-être voir et distinguer des tumeurs, avec une certaine précision. Mais la machine peut ne pas voir quelque chose qui est là, dans l’image, sur lequel elle n’a pas été entraînée, et que seul le spécialiste verrait. Et la machine peut aussi se tromper avec une grande certitude, c’est-à-dire donner des résultats avec une très grande précision, mais qui sont complètement faux. Tout simplement parce que le mécanisme même d’apprentissage profond qui est utilisé est un mécanisme qui va chercher des régularités dans l’image, et ces régularités peuvent ressembler à quelque chose qui est une interprétation complètement erronée par rapport à la situation réelle qui est dans l’image qui est en train d’être traitée. Donc l’intervention humaine est essentielle parce que le sens, le contexte, ne peuvent être apportés que par l’être humain.
Pour la voiture en question, c’est bien parce qu’on est dans un domaine très délimité, qu’on a réduit considérablement la sémantique, et qu’on peut accepter ce comportement où la machine prend la décision d’elle-même.