Psychologie du talion

Section : articles, Catégorie : intelligence artificielle

Proposé par Stephane Desbrosses, le 28-08-2008



Oeil pour oeil, dent pour dent, une justice trop rigide?Oeil pour oeil, dent pour dent, tout le monde connaît la formule. Bien qu’elle aboutisse généralement à des escalades conflictuelles, entre nations, entre groupes, entre personnes, cette stratégie d’interaction a pourtant perduré tout au long de l’histoire des hommes. Pourquoi ? Dans les années 80, un tournoi opposant des programmes d’intelligence artificielle a permis d’apporter un élément de réponse : cette stratégie semble l’une des plus performantes pour maximiser les gains individuels dans une situation collective et sur le long terme.

Un peu d’histoire...

1750 avant Jésus-christ : désireux d'établir une procédure judiciaire qui permettra de réprimer les violences de son peuple, en même temps qu'elle instaurera un cadre moral de conduite, Hammourabi, Roi de Babylone, initie l'écriture des lois parmi les plus anciennes dont on ait retrouvé la trace. Parmi elles, l'un des préceptes de justice les plus suivis pour les millénaires à venir, gouvernant les interactions des personnes, des villes, des nations... La loi du talion stipule, ainsi que le montre sa forme courante "oeil pour oeil, dent pour dent" que le châtiment doit se montrer  au moins semblable, si ce n'est identique, au délit perpétré. Ainsi, dans le code d'Hammourabi et à titre d'exemple, si les fondations d'une maison s'effondraient sur les enfants du propriétaire, on pouvait condamner à mort le fils du maçon...

Au fil des siècles, la loi du talion devint justificatif de nombreux crimes, de nombreuses guerres... car en tant que telle, cette loi ne comporte nullement la précision selon laquelle la peine égale est la peine maximale autorisée : régulièrement, la punition s'élevait plus haut que le crime lui-même, ce qui avait pour effet une classique escalade de violence. Guerre entre nations, entre idéologies ou religions... Plus près de nous, banlieusards contre flics, vendettas personnelles, chamailleries d'enfants en maternelle...

La loi du Talion se heurtait également aux biais perceptifs des hommes, qui voient souvent une réponse d'autrui à une de leur faute, beaucoup plus mauvaise et contraignante que si les rôles étaient inversés. Ainsi, celui qui donne le châtiment estime que sa réponse est juste quand bien souvent, elle est plus forte qu'elle ne le devrait. A l'inverse, celui qui reçoit le châtiment en réponse à une faute, a tendance à minimiser sa faute et surestimer le châtiment, tant et si bien que de son point de vue, le châtiment est quasiment toujours trop fort... Il décide alors de combler la différence en exerçant une nouvelle sanction, et ainsi de suite... S'initie et continue l'escalade de violence.

Dilemmes et décisions 

Pourtant, cette stratégie d’interaction a hautement prévalue au travers des siècles de l’histoire humaine. Pourquoi ? C’est lors d’un gigantesque tournoi informatique que le mathématicien et chercheur en sciences politique Robert Axelrod, trouva les origines de la robustesse et de la pérennité de cette stratégie. Axelrod travaillait à ce moment sur la théorie des jeux, et notamment sur le dilemme des prisonniers, dont il désirait découvrir la meilleure résolution possible.

Comment se construit le dilemme du prisonnier ? Considérons deux prisonniers ayant commis un crime quelconque. Ils se voient proposé le deal suivant : si l’un des deux dénonce l’autre, le dénonciateur sort libre et l’autre écope d’une peine de 5 ans. Si les deux se dénoncent, chacun écope d’une peine de trois ans. Si aucun ne se dénonce, chacun écope d’une peine symbolique d’un an. L’intérêt maximal pour la collectivité se trouve donc dans la coopération des deux prisonniers. Et pourtant, l’intérêt personnel dans chaque cas est toujours de dénoncer l’autre. (pour une explication plus détaillée, voir Logique de la rupture de communication - page 3)

Axelrod demanda à de nombreux chercheurs de créer des programmes dont le rôle serait de simuler l’un des prisonniers, et de récupérer le plus de points possible dans une version inversée du dilemme (dans laquelle le but était donc de récupérer le maximum d’années).

Jeux de guerres artificiels 

Dans un premier tournoi organisé en 1979, 63 informaticiens, psychologues, philosophes… proposèrent leurs programmes. Chaque programme affrontait chaque autre dans une série de dilemmes : chaque dilemme représentait un tour de jeu.

Certains programmes contenaient des centaines de lignes de code, d’autres, une trentaine tout au plus… Différentes stratégies étaient ainsi mise à l’épreuve : certains programmes refusaient la coopération, d’autres leurraient l’adversaire en coopérant quelques fois puis en faisant cavalier seul régulièrement pour amasser le plus de point possibles. D’autres gardait rancune tenace et ne coopéraient plus si l’adversaire les avait trahi…

Chaque programme devait simplement définir à quel moment ou en quelles conditions, ils devaient coopérer avec le programme qui leur faisait face, et à quels autres moments, il devait plutôt essayer de récupérer le plus de points possibles. Nombre d’informaticiens et de mathématiciens usèrent de trésors de logique et de raffinement afin de maximiser leurs gains contre un maximum de stratégie adverses.
Et pourtant, le programme le plus performant fut aussi le plus simple : 5 lignes de codes suffisaient à développer la stratégie la plus performante, fruit de la réflexion d’un philosophe et psychologue de Toronto, Anatole Rapaport. Son programme ne fut tout simplement jamais pris en défaut par les autres participants. Son algorithme traduisait la stratégie du Talion.

> 1. Cooperate on the first move.
> 2. Do whatever the other does on succeeding moves. [if on move N, the other cooperates, on move N+1, cooperate; if on move N, the other defects, defect on move N+1]

traduction approximative :

> ''1. coopérer à la première interaction (coopération)''
> ''2. faire ce que l'autre a fait à l'interaction précédente (réciprocité)''

222 autres collègues vinrent se rajouter aux précédents, pour un total de 255 programmes. Certains programmes gardaient jalousement leurs points, d'autres tentaient de voler ceux de leurs adversaires... Certaines stratégies très complexes allaient jusqu'à proposer des alliances ou envisageaient de donner un leurre en espérant récupérer par la suite un maximum de points. Il est intéressant de noter qu’à ce niveau, les nouveaux concepteurs savaient que la stratégie Donnant-donnant avait remporté le précédent tournoi. Les nouvelles stratégies avaient l’avantage de connaître leur principal adversaire, et de se développer en conséquence pour essayer de le vaincre. Et pourtant… A l’issue de ce second tournoi, aucune stratégie ne semblait l'emporter sur la stratégie d'interaction d'A. Rapaport, qui se résume donc à l'idée suivante :

  • Lorsqu'une personne entre en interaction coopérative (cela désigne n'importe quel comportement : faire connaissance, aider à porter un sac, etc...) je dois en retour me montrer coopérant.
  • Lorsqu'une personne m'agresse (me vole, m'insulte, me fait du mal...) je dois agir exactement comme elle, ni plus ni moins, mais avec la même intensité.

Cette stratégie comporte d’autres postulats tacites : Il est nécessaire de ne pas être rancunier, et de coopérer à nouveau après s’être vengé d’une trahison - ce afin de tirer les bénéfices maximaux de la coopération. Il est nécessaire d’éviter tout conflit en coopérant tant que l’adversaire en fait autant. Il est enfin particulièrement avantageux d’être transparent, afin que l’adversaire puisse s’adapter à cette stratégie et reconnaisse que la coopération représente l’issue la plus avantageuse pour lui.

Un corollaire intéressant peut en être déduit. Il n’est pas nécessaire que les gains de chacun soient symétriques : il y’a plus d’intérêt à laisser gagner 1000 euros à un adversaire, si l’on en gagne 500, qu’à ne rien lui laisser gagner et gagner plus que lui, mais seulement 100 euros. Par conséquent, cette stratégie n’est efficace que dans le cas où le gain n’est pas relatif à celui de l’adversaire. Principalement, pour les entreprises – ou par exemple les sites web, si l'on considère que l'internet est un monde proche de celui des entreprises… Il y’a tout intérêt à coopérer avec quelques rivaux dans la mesure où il en existe des milliers. Qu’un rival tire plus d’avantages d’une coopération n’empêche pas que votre situation s’améliore en regards des milliers d’autres rivaux existants.

Interaction miroir

Cette théorie laisse songeur, elle essaie d'englober les interactions humaines au sein d'un algorithme ultra simplifié mais super efficace... en informatique seulement : les rapports humains sont par trop complexes pour utiliser ces règles de manières trop rigides : elles emmènent parfois vers un paradoxe relationnel extrêmement présent dans nos relations, et étonnamment plus présent proportionnellement à l'intensité de cette relation. C'est un des travers de l'homme de faire le mal pour le mal, et cela peut aboutir à de véritables guerres relationnelles...

Mais alors, pourquoi la loi du Talion est-elle efficace ?

D’une part elle permet de se prémunir, d’autre part, elle encourage à coopérer. Et c’est le concept clé de cette stratégie : la réciprocité. Dans son livre Comment réussir dans un monde d'égoïstes - Théorie du comportement coopératif, Axelrod décrit de nombreuses situations pour lesquelles, en l’absence de tout contrôle supérieur, la coopération peut tout de même émerger dans un ensemble d’agent uniquement préoccupés par leur intérêt personnel. Morale, honnêteté ou civisme ne sont absolument pas nécessaires à l’émergence de cette coopération. L’intérêt personnel seul peut aboutir à l’utilisation de cette stratégie, indépendamment de ceux qui l’utilisent eux-mêmes. Une fois établie, elle est très robuste de par les avantages qu’elle apporte. Il suffit donc qu’elle apparaisse par hasard dans un monde où tout le monde fait cavalier seul, pour révéler sa puissance et contaminer d’autres agents. Ceci explique probablement la pérennité de cette stratégie à travers les âges. Qu’importe que les hommes soient égoïstes, au contraire, leur égoïsme peut les mener à coopérer pour leur propre bien.

La stratégie de réciprocité, parce qu’elle est simple, est facilement repérable. Parce qu’elle est susceptible (au moindre écart, on fait pareil), elle est également très discriminative et ne se laisse pas distancer par des stratégies visant à profiter de l’adversaire. Enfin, parce qu’elle est également toujours prête à coopérer, elle maximise les gains dus au travail et à la dynamique de groupe. Dans les différents tournois qu’il a organisé, Axelrod a presque toujours observé cette stratégie comme gagnante. Pour un nombre suffisamment élevé de tours de jeu, elle était immanquablement la meilleure stratégie d’interaction.

   

Mots-clés : loi du talion, interaction, relationnel, stratégie, théorie des jeux, dilemme du prisonnier, Axelrod, mathématiques, intelligence artificielle, prise de décision, rationnel, collectif



Ajouter votre commentaire

Attention, ce site n'est pas un site de psychothérapie en ligne! Avant de commenter, veuillez consulter ces conseils.
Seul les utilisateurs enregistrés peuvent commenter un article.
Aucun commentaire posté