JOUER MAINTENANT

30.04.2024 La Théorie des Jeux


� � 
LIVE � �  � � 


30.04.2024

Bonjour à tous, aujourd'hui on va parler de la Théorie des Jeux. Il s'agit d'une domaine à la frontière entre les mathématiques et la psychologie où on s'intéresse non pas à des jeux où on s'affronte comme le poker ou les échecs, mais à toutes ces situations où plusieurs personnes peuvent être en état de faire des coopérations. Et on va voir que ça concerne pas seulement des jeux. Imaginons qu'un braquage vienne d'avoir lieu. La police a pas beaucoup d'indices et décide de convoquer les suspects habituels : Bonnie et Clyde. En fait, Bonnie et Clyde ont vraiment commis le braquage. Mais comme la police n'a pas de quoi les inculper, elle décide de les interroger séparément.

La situation est la suivante : Chacun des deux gangsters peut décider soit de garder le silence, soit de balancer son complice. Si les deux se taisent, la police les inculpe pour des faits mineurs et ils font chacun un an de prison. S'ils se dénoncent mutuellement, ils sont jugés pour le braquage et prennent chacun 5 ans de taule. Mais si l'un décide de se taire, et que son complice le trahit en le dénonçant, le traître ressort libre et l'autre fait 10 ans de prison. Voilà les règles du jeu, et je vous rappelle : les deux sont interrogés séparément. À votre avis, qu'ont intérêt à faire Bonnie et Clyde ? Évidemment, intuitivement ils ont intérêt à se taire tous les deux.

Ils feront un an de taule bien sûr, mais c'est tout. Sauf que Mettonsnous à la place de Bonnie : Si Clyde la balance, elle a intérêt à le balancer aussi pour ne faire que 5 ans au lieu de 10. Mais si Clyde se tait, elle a quand même intérêt à le balancer pour ressortir libre tout de suite au lieu de faire bêtement un an de taule. Donc quel que soit le choix de Clyde, Bonnie aboutit à la conclusion qu'elle a intérêt à le trahir. Et évidemment Clyde va faire le raisonnement analogue et lui aussi conclure qu'il a intérêt à trahir. Donc même si on voit bien que globalement la bonne solution c'est que les deux coopèrent pour se taire, si chacun raisonne dans son coin selon son propre intérêt, les deux ont intérêt à trahir.

Et ils vont se retrouver donc dans la pire des situations. Cette situation que je viens de vous décrire s'appelle le 'dilemme du prisonnier' et elle est représentative des questions qu'on se pose dans le domaine de la Théorie des Jeux. Ce qu'on appelle un jeu, généralement, c'est une situation où plusieurs personnes doivent prendre des décisions et ce qu'ils y gagnent va dépendre des décisions qui sont prises par tous les autres. L'histoire de Bonnie et Clyde est une situation où ils ont quelque chose à perdre, leurs années de liberté mais plus généralement on peut présenter des jeux tout à fait analogues où il est question de gains.

Imaginez deux joueurs et que chacun des deux doive faire un choix parmi les options 'trahir' ou bien 'coopérer'. Les gains seront les suivants : si les deux coopèrent, ils gagnent 3 points chacun. S'ils trahissent tous les deux, ils gagnent un point chacun. Mais si l'un trahit et pas l'autre, le traître empoche 5 points et l'autre repart les mains vides. C'est simplement une version en gains de la situation de Bonnie et Clyde, et même s'il n'est plus question de prison, par commodité on appelle aussi ce jeu le 'dilemme du prisonnier' Ce qui rend ce jeu intéressant, c'est qu'il y a une notion de coopération possible.

Et ça c'est quelque chose qui n'existe pas dans un jeu comme le poker par exemple : si on joue au poker ensemble, ce que je gagne vous le perdez. Et réciproquement. On n'a pas d'intérêt à coopérer : le poker est ce qu'on appelle un 'jeu à somme nulle' Pareil aux échecs, il n'y a pas de coopération. En tournoi si je vous bats je marque un point et vous 0, et réciproquement. Et si il y a match nul, on marque 1/2 chacun. Les échecs c'est ce que l'on appelle un 'jeu à somme constante', c'est à dire que le nombre de points distribué est toujours le même d'une partie à l'autre. Il y a juste la répartition qui change.

Dans les jeux à somme nulle ou à somme constante ça revient au mêmeil n'y a pas de notion de coopération. Par contre dans un jeu comme le dilemme du prisonnier, on peut avoir intérêt à coopérer. Et la raison, c'est que ce n'est pas un jeu à somme constante. Regardez : dans cette situation, ce sont 6 points qui seront distribués au total, dans celle ci 5, et dans celleci seulement 2 points. La somme que se partagent les joueurs n'est pas constante, elle dépend des choix. Et le choix coopératif est globalement plus attractif puisque c'est celui qui distribue le plus de points. Mais on a vu qu'il n'est pas nécessairement le choix qui va s'imposer à cause de la tentation de trahir par égoïsme.

Ce genre de situation a notamment été théorisé par le mathématicien John NASH ils sont dans une espèce de situation d'équilibre stable : si un des joueurs décide de modifier sa position, John NASH avait notamment remarqué que quand les deux joueurs trahissent, ils sont dans une espèce de situation d'équilibre stable : si un des joueurs décide de modifier sa position, il ne peut qu'y perdre, c'est à dire qu'aucun des joueurs n'a intérêt à bouger s'il est le seul à le faire. On appelle ça un 'équilibre de Nash', et ici l'équilibre de Nash est une situation qui est globalement défavorable. Ces situations un peu théoriques qu'on modélise en théorie des jeux ont plein d'applications concrètes et on va en voir quelquesunes.

Prenons un exemple : imaginons, vous êtes au lycée et vous avez un dossier à préparer pour faire un exposé sur un sujet quelconque, et on vous demande de faire ça par groupe de deux, en binôme. Chacun des deux élèves a le choix entre travailler sérieusement le choix coopératif-, ou bien glandouiller en espérant que l'autre fasse le boulot ça c'est en quelque sorte la trahison-. Au global, la solution coopérative est évidemment la meilleure. Si l'un des deux seulement glandouille, l'autre se fait avoir en se tapant tout le boulot. Mais si les deux glandouilles, ils se retrouvent avec un dossier pourri.

Une des raisons qui a notamment poussé au développement de la Théorie des Jeux, c'est la situation qui existait entre les ÉtatsUnis et la Russie pendant la Guerre Froide. Imaginons deux pays en concurrence : chacun des deux a le choix entre consacrer son argent à l'armement, ou bien à des trucs plus utiles comme l'éducation, les infrastructures, la culture etc. Si les deux investissent dans l'éducation, c'est globalement la meilleure solution. Si les deux investissent dans l'armement, c'est la Guerre Froide et quelque part tout le monde y perd un peu. Mais si un seul des deux a investi dans l'armement, il peut envahir l'autre pays qui se retrouve détruit.

Autre exemple en matière d'économie cette fois : imaginons deux entreprises qui fournissent à peu près le même produit on va dire des abonnements de téléphone portable- et qui auraient chacun la moitié du marché. Chacune des deux entreprises a mettons le choix entre monter ses prix ou baisser ses prix. Si les deux décident de baisser leurs prix, c'est ce qu'on appelle une guerre des prix : les positions de marché restent identiques mais leurs bénéfices fondent. Si l'une des deux entreprises baisse ses prix, et l'autre les monte, celle qui a baissé pique tous les clients, prend tout le marché et l'autre entreprise coule.

Mais si les deux entreprises montent leurs prix, les positions de marché restent stable mais elles vont toutes les deux augmenter leurs bénéfices : c'est la solution coopérative, la meilleure pour tout le monde Enfin pour tout le monde sauf pour les clients évidemment qui se font pigeonner dans ce cas là. Pour eux la situation de guerre des prix est bien plus souhaitable, et c'est d'ailleurs pour ça que les ententes sur les prix sont sévèrement punies par les autorités de régulation de la concurrence. Mais les exemples d'applications de la Théorie des Jeux ne se limitent pas aux situations où il y a deux camps, ça marche aussi quand il y a plein de participants.

Tenez, vous pouvez faire le jeu suivant avec des amis : mettez un groupe autour d'une table. Chacun a le choix entre miser 0 ou 10€, mais quand on choisit sa mise, on ne sait pas ce que les autres vont faire. Puis, on révèle les mises, on les rassemble et le total est doublé par la banque avant d'être réparti équitablement entre tous les joueurs, indépendamment de leur mise. Évidemment, collectivement on a intérêt à ce que tout le monde mise pour augmenter la part de l'argent reversé. Mais individuellement, chacun se dit qu'il a intérêt à mettre 0 vu que l'argent à la fin sera de toute façon réparti entre tout le monde.

Ce petit jeu symbolise toutes les situations dîtes de 'passager clandestin' où quelqu'un se dit qu'il peut frauder parce que la collectivité payera pour lui. La fraude dans les transports évidemment, mais aussi la fraude fiscale. Mais ça ne se limite pas seulement à la fraude, ça concerne par exemple aussi la pollution : si collectivement on doit réduire notre niveau de pollution mais que chacun se dit que sa contribution est négligeable et que c'est pas bien grave s'il pollue, on est dans une situation de ce genre. dans cette situation, ce sont 6 points qui seront distribués au total, Et la raison, c'est que ce n'est pas un jeu à somme constante. Regardez : et le principe était qu'après avoir amassé un pactole, deux joueurs devaient se le partager selon une situation proche du dilemme du prisonnier.

Voilà comment ça se passe : les deux joueurs sont assis autour d'une table et chacun a deux boules dorées, à l'intérieur desquelles sont inscrits les mots 'PARTAGER' et 'VOLER'. Ils sélectionnent chacun une des deux boules pour indiquer leur choix. Si les deux joueurs choisissent 'PARTAGER', ils se partagent le magot à 50/50. Si les deux choisissent de voler, personne ne reçoit rien. Et si l'un décide de voler et l'autre de partager, le voleur prend tout le magot et le partageur repart les mains vides. Comme pour le dilemme du prisonnier, c'est un jeu à somme non constante : la solution collaborative est globalement la meilleure mais la trahison est tentante et risque de mener à la pire solution.

Dans le jeu 'Golden Balls', en moyenne, 53% des gens choisissaient de partager, et 47% de trahir. Ça fait quand même pas mal de trahison ! Mais dans Golden Balls comme dans les exemples précédents, il y a une chose importante à prendre en compte : le fait qu'on ne joue qu'une seule fois. Une fois que le coup est joué, on se quitte et on ne se revoie plus. Donc déjà, la trahison n'est pas trop pesante psychologiquement. Et puis il n'y a pas de notion de confiance qui peut s'installer. Là où ça devient intéressant, c'est quand on s'amuse à répéter le même jeu plusieurs fois de suite, et à regarder comment les comportements des joueurs évoluent.

Vous vous souvenez du jeu de mon passager clandestin, celui où on a un groupe de personnes qui peuvent choisir de miser soit 0, soit 10€ et où la somme est doublée avant d'être partagée entre tout le monde. Si vous vous amusez à jouer à ce jeu avec des amis, essayez de faire plusieurs tours. Ce que vous allez constater, c'est que dans les premiers tours, la plupart des gens vont miser. Et puis plus il y a de fraudeurs, plus ça incite les autres à frauder, ou en tout cas ça décourage les autres de coopérer. Et au bout de quelques tours, tout le monde mise 0. Dans le dilemme du prisonnier aussi on peut répéter le jeu plusieurs fois de suite et cumuler les points.

Et c'est intéressant parce que ça permet aux joueurs de varier leurs coups, par exemple enfumer l'adversaire avec une trahison après une série de coopérations, ou au contraire montrer de la bonne volonté et revenir à la coopération après une trahison. Pour jouer au dilemme du prisonnier répété, il faut définir une stratégie, c'est à dire une série de consignes qui vont vous permettre de décider comment vous allez jouer votre coup en fonction des coups qui ont été joués avant par vous, et par l'adversaire. Voilà une série de stratégies possibles : La stratégie dite 'gentille', qui consiste à toujours coopérer et ne jamais trahir.

On peut l'appeler aussi la stratégie 'naïve'. À l'opposé il y a la stratégie 'méchante', qui consiste à trahir à tous les tours quoi qu'il arrive. Il y a la stratégie 'indécise' dans laquelle on alterne coopérer et trahir. La stratégie 'méfiante', dans laquelle on alterne aussi mais en commençant par une trahison. Et puis il y a la stratégie 'lunatique' où on tire au hasard. Toutes ces stratégies sont très simples mais pas très intéressantes, notamment parce qu'elles ne tiennent pas compte de la manière dont l'adversaire joue. Voici quelques exemples de stratégie qui s'adaptent à l'adversaire : La stratégie 'rancunière', qui consiste à coopérer tout le temps jusqu'à ce que l'adversaire trahisse et à partir du moment où il a trahit une fois, on le trahit jusqu'à la fin des temps.

On peut imaginer aussi des choses plus compliquées, du genre : Coopérer, sauf si l'adversaire a trahi deux fois de suite, auquel cas trahir aussi, mais au bout de 3 trahisons successives on revient à une coopération. Et on peut imaginer des tas de stratégies de ce genre. Pour savoir quelles étaient les meilleures, le mathématicien Robert Axelrod a eu l'idée d'organiser un grand tournoi : il a demandé à une soixantaine de personnes de lui soumettre des stratégies et il les a faites toutes s'affronter deux par deux dans un grand tournoi informatique, et il a compté les points accumulés par chaque stratégie.

*roulement de tambour, tension dramatique insoutenable* Et la grande stratégie gagnante fut : une stratégie complètement inattendue, d'une simplicité enfantine. Elle a été soumise par un théoricien des jeux, Anatol Rapoport. Et la voici : Au premier coup, coopérer, et pour le reste du jeu, répéter le coup que l'adversaire a joué au tour précédent. Hyper simple : si l'adversaire a coopéré au coup précédent, vous coopérez, et s'il a trahit au coup précédent, vous trahissez. C'est tout ! Cette stratégie est surnommée "DonnantDonnant". La stratégie 'DonnantDonnant' est celle qui a cumulé le plus de points sur la totalité du tournoi organisé par Robert Axelrod.

Mais ce qui est amusant, c'est qu'elle n'a gagné aucun de ses matchs. Souvenezvous, ce tournoi c'est en fait une série de duels où les différentes stratégies s'affrontent deux par deux. Et bien chaque fois qu'elle joue contre une autre stratégie, la stratégie 'DonnantDonnant' fera moins de points qu'elle -ou autant à la limite-, mais elle ne gagne jamais le match. Mais en cumulant tous les matchs, c'est elle qui totalise le plus de points. À l'opposé une stratégie comme la stratégie 'méchante' qui consiste à trahir tout le temps ne va perdre aucun de ses matchs, mais elle accumulera très peu de points.

Eh oui, ces résultats un peu paradoxaux sont possibles parce qu'on a là un jeu à somme non constante : le nombre de points distribués n'est pas toujours le même. Et donc gagner ces duels et accumuler plein de points, ça n'est pas la même chose. Il est intéressant d'analyser plus en détail la stratégie 'DonnantDonnant' pour essayer de comprendre pourquoi elle marche si bien. Déjà, c'est une stratégie qui commence toujours par coopérer, c'est à dire qu'elle est 'bienveillante', elle est 'optimiste'. Mais à côté de ça elle n'est pas non plus 'naïve' non plus, c'est à dire qu'elle n'hésite pas à trahir si jamais elle a été trahie.

Mais à la fin, c'est une stratégie qui est juste, qui n'est pas fourbe.Elle ne va pas s'amuser à trahir si tout se passe bien et que tout le monde coopère. Mais le point le plus intéressant, c'est que c'est une stratégie dite 'à mémoire courte' : elle ne se base que sur le coup précédent pour décider de ce qu'elle va faire. Elle ignore complètement le passé : même si l'adversaire a coopéré plein de fois, s'il trahit, il se fera punir. Mais inversement, même si l'adversaire a trahi des dizaines de fois, s'il revient à la coopération, on coopère en oubliant le passé. La punition est immédiate, mais le pardon l'est aussi. Et il est inconditionnel.

En pratique, nous les humains on a du mal à adopter ce genre de comportements. On est vite rancuniers, et c'est pas facile de regagner notre confiance. Je pense qu'il y a quand même un principe intéressant à méditer pour les relations humaines, que ce soit en famille, ou au boulot : punition immédiate mais pardon inconditionnel. Utile pour l'éducation des enfants, dans le couple aussi peutêtre ? Pensezy aussi si vous êtes dans un environnement de travail qui vous semble compétitif : le boulot, c'est souvent un jeu à somme non constante, et c'est pas celui qui écrasera tous ses adversaires qui marquera le plus de points à la fin.

All Devices iOS Android Chromecast