L'encyclopédie des Sciences
  Théorie des jeux et de la Décision
 

La théorie de la décision et des jeux dépasse très largement le cadre étroit des jeux de sociétés, même si ces derniers ont constitué son premier objet d'étude et lui ont donné son nom dans la plupart des ouvrages disponibles dans le commerce.

Par ailleurs les deux théories sont très proches l'une de l'autre d'où le fait qu'elle soient très souvent non différenciées dans la littérature.

Définition:

D1. La "théorie des jeux" est l'étude des modèles de prise de décisions en avenir incertain non probabilisables.

D2. La "théorie de la décision" est l'étude des modèles de prise de décisions en avenir incertain probabilisables (objectivement ou subjectivement).

Chacune des méthodes d'analyse de ces deux théories se fait principalement sous forme tabulaire (tableau) ou sous la forme d'une arbre vertical ou horizontal.

Voici un schéma assez connu par les chefs de projets qui résume assez bien la situation globale:

On voit dès lors immédiatement que l'envie de confondre les deux en une seule théorie (nom) est grande même si fondamentalement la différence est grande.

Ces théories ont pour objectif de tenter de formaliser comment décider que telle configuration ou décision est meilleure qu'une autre? Nous chercherons pour cela à trouver l'optimum de certains paramètres qui permettent de quantifier la qualité stratégique d'une situation. Il faut également déterminer quelles conditions conduisent à une configuration qui est jugée optimale.

La théorie des jeux et de la décision est aujourd'hui très répandue et utilisée dans les milieux universitaires, non seulement en économie (finance d'entreprise particulièrement), mais également par toute une classe d'autres sciences dans lesquelles l'étude des situations de confits est pertinente : sociologie, biologie, évolution, informatique (jeux vidéos), marketing...

Remarque: Dans le monde de l'industrie les techniques de décisions sont inconnues de la quasi-totalité des dirigeants dont les choix sont souvent plus qualitatifs, instinctifs que scientifiques...

Nous tenterons, commme toujours sur ce site, de minimiser un maximum (...) le nombre de définitions et concepts afin de ne pas noyer la rigueur de l'analyse mathématique sous le chaos d'un vocabulaire inutile et non nécessaire à une telle analyse (et dans le cadre de la théorie de jeux c'est un peu comme dans la théorie des graphes vraiment le cauchemard!).

Définition: Un "jeu" est une situation où des joueurs sont conduits à faire des choix stratégiques parmi un certain nombre d'actions possibles, et dans un cadre défini à l'avance qui seront les "règles du jeu", le résultat de ces choix constituant une "issue du jeu", à laquelle est associé un "gain" (ou payement), positif ou négatif, pour chacun des participants.

Remarque: Un joueur peut être une personne, un groupe de personnes, une société, une région, un parti politique, un pays ou la Nature.

Postulats (nous les retrouverons en économétrie) :

P1. Le marché est régi par la compétition et la coopération....

P2. Les comportements des agents économiques sont rationnels (...)

P3. Il est possible de formaliser les comportements compétitifs

P4. Toutes les phénomènes compétitifs ont une dimensions utilitaire

Nous différencions et définissons quatre types de situations (que nous formaliserons plus loin) :

D1. Les "jeux coopératifs et non coopératifs" : un jeu est dit coopératif lorsque les joueurs peuvent communiquer librement entre eux et passer des accords (par ex. sous forme d'un contrat). Ils forment alors une coalition et recherchent l'intérêt général suivi d'un partage des gains entre tous les joueurs. Dans un jeu non coopératif, les joueurs (qui ne communiquent pas ou ne peuvent pas communiquer entre eux) agissent selon le principe de rationalité économique : chacun cherche à prendre les meilleurs décisions pour lui-même (c'est à dire cherche à maximiser égoïstement ses gains individuels). Ce dernier type de jeu fait intervenir les probabilités.

D2. Les "jeux à somme nulle et non nulle" : un jeu est dit à "somme nulle" lorsque la somme des gains des joueurs est constante (ou par le choix subtile d'une fonction utilité peut l'être...) ou autrement dit : ce que l'un gagne est nécessairement perdu par un autre (échecs, poker…). Les jeux de société sont souvent des jeux à somme nulle mais les situations réelles sont souvent mieux décrites par les jeux non coopératifs à somme non nulle car certaines issues sont profitables pour tous, ou dommageables pour tous (vie politique, situations d'affaires…).

Remarques:

R1. Certains théoriciens critiquent les jeux à somme nulle, au moins en vue des situations économiques, au motif qu'un échange économique est en principe mutuellement avantageux et que les jeux à somme nulle seraient totalement irréalistes.

R2. Les jeux à somme nulle sont parfois appelés "jeux antagonistes".

R3. Depuis l'invention de l'arme atomique, l'équilibre de la terreur respose sur la doctrine de dissuasion offensive. Contre les capacités réciproques à s'infliger des dégâts colossaux, les arsenaux nucléaires respectifs s'auto-annulent, dans un jeu à somme nulle, par un principe de desctruction mutuelle assurée

D3. Les "jeux avec ou sans équilibre" : un jeu à somme non nulle coopératif ou non est dit avec "équilibre de Nash" s'il existe un couple de stratégies (dans le cas d'un jeu à deux joueurs) tel que aucun des joueurs n'a intérêt à changer unilatéralement de stratégie et ceci afin de s'assurer le maximum des minium (le "maximin") des gains.

D4. Les "jeux compétitifs et non compétitifs" : un jeu non compétitif est à l'opposé d'un jeu compétitif tel que par définition, lorsque toute couple de stratégie (dans le cas d'un jeu à deux joueurs) est tel qu'il fait perdre ou gagner simultanément à tous les joueurs un gain donné (quand je perds quelque chose tu perds quelque chose, quand je gagne quelque chose tu gagnes aussi quelque chose).

REPRÉSENTATIVES

Il existe différentes manières de formaliser la théorie des jeux et de la décision et ce d'autant plus suivant le type de situations dont il s'agit. Ainsi, nous distinguons :

1. Les "formes extensives" qui sont des formes synoptiques (arbre, branche, feuille) utiles à une compréhension simple des stratégies possibles et où l'issue d'un jeu est assimilée à une feuille dans laquelle nous retrouvons le vecteur des gains (ou "payements") respectif des joueurs. Ce genre de représentation devient compliquée (longue à dessiner) lors de jeux répétitifs.

2. Les "formes normales" qui permettent de réduire considérablement la taille et le temps de représentation graphique d'un jeu sous forme d'un tableau (matrice) de gains (ou "payements") mais qui sont inadaptés aux jeux répétitifs.

Deux sous-catégories peuvent se distinguer :

- Les "formes normales des jeux à somme nulle" (jeux strictement compétitifs) où selon un choix adapté il est possible de simplifier la représentation de la matrice (ou "bimatrice") en demi-matrice puisque les gains sont égaux et opposés pour les joeurs pour chaque stratégie donnée.

- Les "formes normales des jeux à somme non nulle" (jeux compétitifs).

Remarque: Chaque cellule du tableau/matrice contient donc un "vecteur" dont les composantes sont les gains respectifs des joueurs. Si le jeu est à somme nulle chaque cellule ne contient qu'une seule valeur puisque ce qui est gagné par un joueur est perdu par l'autre. Nous en verrons de nombreux exemples.

3. Les "formes ensemblistes" qui ont une approche ensembliste orientée probabiliste qui va nous permettre d'étudier la dernière forme ci-dessous.

4. Les "formes graphiques" qui sont sympathiques à regarder et que nous introduirons comme approche complémentaire car fasant appel à la recherche opératonielle (cf. chapitre de méthodes numériques).

FORMES EXTENSIVES

Les règles d’un jeu stratégique et les gains contingents qui y sont associés peuvent donc être représentées sous une forme extensive plus courrament nommé par les connaisseurs "arbre de Kuhn".

Exemple:

Nous considèrons deux firmes d'ordinateurs qui ont à faire un choix de système d'exploitation. La compatibilité entre les systèmes serait socialement préférable, mais pour des raisons liées à l’histoire des deux firmes, chacune préférerait que ce soit l'autre qui fasse l'effort de s'adapter. Si les deux firmes choisissent CAM, MBI () gagne 600 M$ et Poire () 200 M$. Si elles choisissent MAC, c’est Poire qui gagne 600 M$ et MBI 200 M$. S'ils ne sont pas compatibles, ils gagnent chacun 100 M$.

Remarque: Nous appelons ce type de jeu, un "jeu de coordination". Par exemple, le choix de standards de télévision ou de lecteur des Mac et PC correspondent à ce type de jeux. Chaque constructeur voudrait imposer son propre standard mais en cas de désaccord, les consommateurs pourraient refuser d'acheter le produit.

Les firmes jouent séquentiellement tel que le jeu puisse être représenté sous la forme d'un arbre de décision:


  
(1)

Remarques:

R1. La structure informationnelle mise en évidence fait référence à l'information dont dispose chaque joueur à chaque noeud de décision du jeu.

R2. MAC/CAM est un jeu à "information parfaite" dans le sens que les joueurs connaissent exactement l'éventail des leurs stratégies et de celles de leur adversaire et les conséquences précises de ces stratégies. Ainsi, chaque noeud de la forme extensive est visible par les joueurs (nous définirons le concept d'information parfaite de manière formelle un peu plus loin).

Une analyse plus simple de la meilleure stratégie à opter consiste à passer directement à la forme normale :

FORMES NORMALES

Pour passer à la forme normale ou encore "forme stratégique", nous définissons une stratégie comme un plan d’action complet pour chaque joueur, qui spécifie un choix pour chaque noeud de l’arbre et donc pour chaque situation pouvant survenir au cours du jeu. La "matrice des gains" représente la situation stratégique des joueurs et le gains qu’ils recevront pour chaque stratégie.

Nous reprenons l'exemple précédent MAC/CAM et obtenons puisque le jeu est à somme non nulle un vecteur dans chaque cellle:

J1 / J2

CAM

MAC

CAM

600 , 200

100 , 100

MAC

100 , 100

200 , 600

  (2)

Remarques:

R1. Nous voyons dans cette matrice que les intérêts des deux entreprises ne sont pas complètement opposées, elles progressent à chaque fois dans la même direction lorsque les stratégies sont opposées (si un perd, l'autre perd aussi et inversement). Ainsi, le jeu MAC/CAM est un jeu dont les gains ne progressent pas dans des directions (stratégies) opposées. Nous parlons alors de "jeux non strictement compétitif" (nous définirons ce concept de manière formelle un peu plus loin).

R2. Nous voyons également que quelque soit la stratégie choisie par un des joueurs, chaque choix possible par l'autre joueur aménera toujours à des gains équivalents. Dès lors, nous disons qu'il que c'est un "jeu sans tactique prudente".

Définition: Une stratégie donnée est dite à "tactique prudente" (c'est le choix du numéro de la ligne pour le joueur ligne, ou le numéro de la colonne pour le joueur colonne) lorsque le gain d'un des joueurs est tel que lorsque par rapport à une stratégie choisie, l'ensemble des choix de son concurrent apporte un gain maximal à ce dernier. Le gain minimal assuré de est appelé le "niveau de sécurité" de .

Exemple:

J1 / J2
b1
b2
b3
b4
a1
5 , 5
6 , 4
0 , 10
4 , 6
a2
1 , 9
7 , 3
5 , 5
6 , 4
a3
6 , 4
7 , 3
7 , 3
8 , 1
a4
4 , 6
8 , 1
0 , 10
2 , 8
a5
3 , 7
5 , 5
9 , 0
0 , 10
  (3)

Le joueur A peut penser que le joueur B est très perspicace, ou a beaucoup de chance, et est ainsi en mesure de choisir la meilleure réponse possible à toute tactique de A.

Ainsi :

- Si A choisit a1, B le devinant choisirait b3, et A aurait gagné 0
- Si A choisit a2, B le devinant choisirait b1, et A aurait gagné 1
- Si A choisit a3, B le devinant choisirait b1, et A aurait gagné 6
- Si A choisit a4, B le devinant choisirait b3, et A aurait gagné 0
- Si A choisit a5, B le devinant choisirait b4, et A aurait gagné 0

Le choix prudent de A est donc a3, qui lui assure de gagner au moins 6. Ce gain minimal assuré est le niveau de sécurité. En faisant de même pour B s'il redoute l'extrême perspicacité de A est b1. Cette tactique lui assure un gain de 4, qui est aussi son niveau de sécurité.

Si nous étudions le jeu MAC/CAM par sa matrice de gains, nous pouvons nous rendre compte qu'il y a deux issues remarquables où le gain des deux entreprises est maximum par rapport aux autres stratégies. Ces deux issues sont intéressantes à plus d'un titre :

Effectivement, les deux entreprises n'ont aucun regret quant à leur choix de stratégie. S'ils considèrent la stratégie de leur adversaire comme inéluctable leur propre choix de stratégie est le meilleur possible. Nous disons que les deux issues sont des "équilibres de Nash" (nous définirons ce concept de manière formelle un peu plus loin). L'équilibre de Nash caractérise ainsi en quelque sorte la rationalité individuelle!

Remarque: Le jeux MAC/CAM comporte deux équilibres de Nash. Dès lors, nous ne sommes pas capables, sans aucune information complémentaire, de prédire quelle sera exactement la solution du jeu. Les deux résultats sont également vraisemblables.

C'est ainsi que la théorie des jeux fait apparaître la stratégie sociale la plus favorable aux deux joueurs : que les deux joueurs adoptent aux moins le même système. Quant à savoir lequel... le jeu devra dès lors être non-coopératif.

Dans l'exemple précédent aussi, la conjonction des tactiques prudentes (a3,b1) constitue un équilibre de Nash (dans le sens où chacun des joueurs n'a pas intérêt à changer unilatéralement de stratégie s'il veut préserver le gain maximum). Cela tient à une particularité de ce jeu ! En d'autres termes :

1. Il existe de nombreux jeux qui n'ont pas d'équilibre

2. Il existe de nombreux jeux qui ont des équilibres qui ne correspondent pas à la conjonction des tactique prudentes.

Remarque: Si dans un jeu, un couple d'issues est telle qu'il est impossible d'améliorer le score de l'un des deux joueurs sans diminuer le score de l'autre, nous disons que ces issues sont "pareto-optimales" ou "pareto-efficientes" (nous définirons ce concept de manière formelle un peu plus loin).

Exemple:

Dans ce jeu, deux joueurs s'affrontent à pierre, ciseaux, papier (PCP…). La forme extensive de ce jeu est trivialement :


  
(4)

Pour faire apparaître la simultanéité du jeu sur la représentation, nous avons entouré les ensembles d'informations. sait que a choisi un élément, mais il ne sait pas lequel, donc il ne connaît pas le noeud exact où son propre choix va intervenir, et donc il est incapable de déterminer l'issue du jeu qui va être atteinte. Le jeu est donc a "information imparfaite".

Sous forme normale, nous avons donc :

J1 / J2

Pierre

Ciseaux

Papier

Pierre

0 , 0

1 , -1

-1 , 1

Ciseaux

-1 , 1

0 , 0

1 , -1

Papier

1 , -1

- 1 , 1

0 , 0

  (5)

Ce jeu est un jeu à somme nulle dans le sens où tout ce qui est un gagné par l'un est perdu par l'autre. En d'autres termes, nous avons déjà vu que nous pouvions parler dès lors de jeux "strictement compétitifs".

Les jeux à somme nulle ont ceci de particulier en plus qu'il est toujours possible comme nous l'avons déjà mentionné de les représenter par leur demi-matrice (par rapport à un seul joueur donc) qui résume à elle seule tout le jeu puisque ce qui est gagné par ce joueur est perdu par l'autre et inversement :

J1 / J2

Pierre

Ciseaux

Papier

Pierre

0

1

-1

Ciseaux

-1

0

1

Papier

1

- 1

0

  (6)

Au besoin, si les gains et pertes respectives du jeu n'ont pas le même "delta", il suffit de définir une fonction d'utilité adéquate pour l'autre joueur tel qu'il soit toujours possible pour n'importe quel jeu strictement compétitif où les gains ne sont pas opposés et égaux d'être mis sous la forme d'une demi-matrice. Nous démontrerons qu'il existe une telle fonction d'utilité.

Remarque: Sur la demi-matrice d'un jeu à somme nulle, il est très facile de reconnaître s'il existe un équilibre de Nash ou non. Par exemple :

2

0

1

3

  (7)

Dans ce jeu, la ligne 2 est la tactique prudente du joueur ligne et le joueur colonne choisira la colonne 1 comme tactique prudent dans laquelle ne se trouve pas la plus grande. Dès lors, le joueur ligne aura intrérêt à se déplacer en première ligne donc les tactiques prudentes conjointes ne sont pas un équililibre et par ailleurs, il n'y pas d'équilibre de Nash!!

Dans le duel tactique ainsi défini, l'espérance du joueur ligne est le maximum des minimums de lignes, c'est-à-dire le "maximin", tandis que l'espérance du joueur colonne est le minimum des maximums de colonnes, c'est-à-dire le "minimax".

Définitions:

D1. Le "maximin", appelé aussi parfois "critière de Wald", est un critère pessimiste. Il s'agit effectivement selon ce critère, de maximiser le résultat minimum. Pour le mettre ne oeuvre, il convient :

- Pour chaque décision (ou stratégie), de retenir le résultat le plus faible

- Parmi, les moins bons résultats, choisir le plus élevé des moins bons résultats des différentes stratégies.

Ce genre d'approche peut donc outre sous forme tabulaire être représentée sous la forme d'une arbre de décision.

D2. Le "maximax", selon la même logique que le critère précédent consiste à retenir le meilleur des résultats des différentes stratégies possibles, c'est donc un critère optimiste. Pour le mettre ne oeuvre, il convient :

- Pour chaque décisions (ou stratégie), de retenir le résultat le plus attendu le plus élevé

- Parmi, les meilleurs résultats, choisir le plus élevé des meilleurs résultats des différentes stratégies.

Ce genre d'approche peut donc outre sous forme tabulaire être représentée sous la forme d'une arbre de décision.

Si et seulement si le maximin est égal au minimax, leur valeur commune, qui est l'espérance commune aux deux adversaires, est appelée la "valeur du jeu" (nous le démontrons juste quelques lignes en-dessous), et tout couple formé par une telle tactique prudente du joueur ligne et une tactique prudente du joueur colonne défini un équilibre (pour cette raison l'exemple précédent n'a pas d'équilibre).

Exemple:

2

4

1
3

0

4

  (8)

Dans ce jeu, la ligne 1 est la meilleure tactique prudente du joueur ligne et le joueur colonne choisira la colonne 1 comme tactique prudente dans laquelle se trouvent les plus petites pertes. Dès lors, la cellule supérieure gauche correspond aux tactiques prudentes conjointes et correspond comme nous le voyons à un équilibre de Nash.

Définition: Dans un jeu à somme nulle, nous appelons "col" l'utilité (vue dans le sens du gain ou de la perte) qui est à la fois minimum dans sa ligne et maximum dans sa colonne (ce qui est le cas de l'exemple précédent où l'équilibre est un col).

Démontrons maintenant que dans tout jeu à somme nulle, si et seulement si les niveaux de sécurité des deux joueurs sont opposés (le minimax est égal au maximin), la conjonction des tactiques prudentes est toujours un équilibre.

Reprenons la définition d'un couple formé :

- d'une tactique prudente pour le joueur , lui assurant de gagner au moins
- d'une tactique prudente pour le joueur , lui assurant de gagner au moins

Dans le cas d'un jeu à somme nulle, nous pouvons toujours redéfinir la fonction d'utilité d'un des joueurs de manière à obtenir comme nous l'avons vu afin de pouvoir écrire la demi-matrice. Dès lors, observons ce qu'il ce passe (en se rappelant bien que dans un tel jeu, le gain équivaut à la perte donc par extension quand le gain est minimal pour l'un la perte est minimale pour l'autre) :

Le couple , comme tout couple qui contient , assure A de gagner au moins v et in extenso assure B de gagner au moins -v (puisque ).

A n'a donc aucun intérêt à s'écarter unilatéralement de , puisque B s'est assuré de perdre au plus vA. De même, B n'a aucun intérêt à s'écarter unilatéralement de la tactique , puisque A s'est assuré de gagner au moins v. dans la stratégie de

Par conséquent, dans le cas où les niveaux de sécurité des deux joueurs sont égaux et opposés, la conjonction des tactiques prudentes est un équilibre.

Nous avons déjà vu précédemment un exemple dans lequel les niveaux n'étaient pas exactement opposés.

JEUX RÉPÉTITIFS

Supposons qu'un homme et une femme aillent au cinéma, Une fois sur place, ils doivent choisir entre aller voir un documentaire ou une comédie. L'un des deux préfère les documentaires et l'autre les comédies, mais tous deux préfèrent voir un film ensemble que séparément : c'est… la guerre des sexes (GDS…)

Les stratégies disponibles pour chacun des deux joueurs, en considérant qu'ils font leur choix simultanément (ce qui est peu vraisemblable dans un cas réel, la galanterie obligeant à désynchroniser le jeu profit de la femme :-) ), sont alors :

- Aller voir un documentaire, ce que nous noterons Doc

- Aller voir une comédie, ce que nous noterons Com

La matrice des gains sera alors :

J1 / J2

Doc

Com

Doc

2 , 3

1, 1

Com

1 , 1

3 , 2

  (9)

D'abord, nous pouvons remarquer que GDS n'est pas un jeu strictement compétitif (donc inutile d'essayer de le représenter sous la forme d'une demi-matrice) et qu'il s'aigt d'un jeu de coordination. Deuxièmement, nous remarquons que les deux issues à gain maximum sont des équilibres de Nash (nous ne pouvons donc prédirie l'issue du jeu).

Ce jeu à cependant de particulier par rapport aux précédent au fait qu'il est un jeu à une seule étape. Supposons ainsi maintenant que le couple retourne au cinéma la semaine suivante, et qu'il doive à nouveau faire ce choix. Nous pouvons de nouveau représenter cette situation par un jeu, qui nn'est en fait que la répétition de GDS, notons le GDS2.

GDS2 a deux étapes. Si nous considérons que lors de la deuxième étape chacun des deux joueurs sait ce que l'autre a choisi lors de la première étape, les stratégies disponibles sont maintenant des stratégies conditionnelles : elle peuvent tenir compte des coups joués par l'adversaire lors des étapes précédentes.

La description de ces stratégies suit le schéma suivant : nous jouons au premier coup, puis si l'autre a choisi le documentaire lors de la première sortie, alors nous jouons , sinon , avec prenant leur valeur dans l'ensemble . Nous noterons cette stratégie :

  (10)

Nous pouvons lire cette notation de la manière suivante : nous jouons , puis si nous nous retrouvons en alors nous jouons , et si nous nous retrouvons en alors nous jouons . Dans le cas GDS2, nous avons donc 8 stratégies :

1. : nous choisissons toujours le documentaire :

2. : nous choisissons toujours le documentaire, sauf si la première fois nous nous sommes retrouvé(e)s seul(e)s

3. : nous choisissons toujours le documentaire, sauf si la première fois nous avons tous les deux choisi le documentaire

4. : la première fois nous choisissons le documentaire et la seconde la comédie.

5. : la première fois nous choisissons la comédie et la seconde le documentaire

6. : nous choisissons toujours la comédie, sauf si la première fois nous nous sommes retrouvé(s) seul(e)s.

7. : nous choisissons la comédie sauf si la première fois nous avons tous les deux choisi la comédie.

8. : nous choisissons toujours la comédie.

Pour chaque issue de GDS2, les vecteurs d'utilité sont déterminés en effectuant la somme des vecteurs obtenus pour chacune des étapes considérées comme des issues de GDS. Nous dirons que GDS2 est un "superjeu" dont GDS est le "jeu constitutif".

Définition: Un "équilibre parfait en sous-jeux" correspond à une combinaison stratégique dont les actions choisies pour chaque sous-jeux sont des équilibres de Nash.

Remarque: Un "sous-jeu" est simplement un sous-arbre de l'arbre de jeu.

Voyons maintenant tous ces concepts de manière ensembliste (accrochez-vous un peu )

FORMES ENSEMBLISTES

Nous avons donc vu jusqu'à maintenant qu'il existe un certain nombre d'éléments qui composent un jeu : les joueurs, les actions et stratégies des joueurs, les déroulements et les étapes du jeu, les résultats du jeu et les informations dont disposent les joueurs de chaque choix d'action.

Définitions:

D1. Les règles d'un jeu indiquent :

- Les succession des étapes du jeu, et l'ordre dans lequel interviennent les joueurs

- Les actions qui sont autorisées à chaque étape

- Les informations dont dispose le joueur chaque fois qu'il doit prendre une décision

Nous avons vu qu'il y a deux formes de représentations possible pour un jeu jusqu'à maintenant. L'une d'entre elles utilise un arbre et l'autre une table (forme normale). Sous une expression formelle cela donne :

D2. Un arbre de jeu est la donnée :

- D'un ensemble D de nœuds de décisions, ou situations de jeu

- D'un ensemble I d'issues de jeu, avec (donc une issue n'est pas considérée comme un nœud !)

- D'un élément de D et d'une fonction p de dans D tel que :

  (11)

appelée "fonction prédécesseur", qui pour chaque situation de jeu, ou issue, indique l'unique action (décision ou situation, d'où le fait que nous enlevons au moins un élément D de l'ensemble de départ) qui a permis d'arriver à cette situation, ou issue.

Pour déterminer l'issue d'un jeu, il suffit de connaître les stratégies utilisées par chacun des joueurs. Une stratégie est une combinaison d'actions autorisées par les règles du jeu jusqu'à la fin de celui-ci. Il existe plus précisément trois types de stratégies.

D3. Une "stratégie pure" s pour un joueur n est une application de l'ensemble des nœuds de décision de ce joueur vers l'ensemble D de tous les nœuds de décision du jeu telle que :

  (12)

Plus simplement dit, une stratégie pure est une stratégie ne faisant intervenir aucune forme de hasard, qui est donc complètement déterministe.

Remarque: La fonction stratégie pure n'est que la fonction réciproque de tel que .

D4. Une "stratégie mixte" pour un joueur n est une distribution de probabilité avec sur l'ensemble de ses stratégies pures .

Exemple:

Les tirs aux buts (penaltys) sont une forme de jeu à stratégie mixte. Effectivement, le gardien de but doit anticiper le tir en ne peut l'analyser. Il doit donc choisir au hasard s'il restera au milieur, s'il ira à gauche ou à droite. Idem, pour l'attaquant (normalement le gardien doit se lancer au moment mêment où l'attaquant tire) qui ne sachant pas où se lancera la gardien tirera donc au hasard.

Remarques:

R1. Une stratégie pure peut être regardée ainsi comme une stratégie qui donne la probabilité 1 à et 0 à toutes les autres.

R2. Dans notre définition de l'ensemble des stratégies, il y a un nombre fini de stratégies pour chaque agent mais en économie, les ensembles des stratégies sont souvent continus et contiennet une infinité de stratégies possibles (choix de quantité, de prix, etc.).

Naturellement, le résultat obtenu par le joueur ne peut pas être garanti de façon certaine, puisque le processus de choix de la décision fait intervenir des probabilités.

Une stratégie pure est donc une stratégie faisant le choix d'une parmi toutes les stratégie mixtes et qui utilise celle-ci durant toute la durée de jeu. Un joueur utilisant une stratégie mixte face à un joueur utilisant une stratégie pure utilisera (sera forcé) donc lui aussi d'utiliser une stratégie pure pour une rencontre, mais n'utilisera pas toujours la même stratégie pure lors de toutes leurs rencontres.

D5. Une "stratégie de comportement" pour un joueur n est un ensemble est un élément de (donc un numéro de nœud) et une distribution de probabilité sur le sous-ensemble des successeurs de nœud de décision i.

D6. Une "combinaison stratégique" est un vecteur de stratégies dont chaque élément correspond à la stratégie utilisée par un joueur participant au jeu.. La donnée d'une combinaisons stratégique détermine donc de manière complète l'issue du jeu.

Les joueurs doivent avoir des préférences parmi les issues qui sont à leur portée. C'est avec la définition des ces préférences que nous pouvons caractériser la rationalité d'un joueur. La relation de préférence que nous noterons , est une relation binaire sur l'ensemble des issues d'un jeu. Nous noterons et nous dirons que "x est au moins aussi bon que y". Nous pouvons alors définir la préférence stricte telle que :

  (13)

que nous lirons "x est préféré à y", et la relation d'indifférence :

  (14)

Remarque: Nous réutiliserons ces concepts en économétrie lors de notre étude de la théorie de la préférence.

D7. Une relation de préférence est dite "relation rationnelle", si elle est complète (réflexive) et transitive. Dans ce cas, comme nous l'avons vu dans le chapitre des opérateurs (section arithmétique), nous avons affaire à un préordre.

D8. Une "fonction d'utilité", ou encore "fonction de paiement" ("payoff function" en anglais) est une fonction de l'ensemble des issues d'un jeu à n joueurs vers qui associe les utilités retirées par chaque joueur.

Si U est une fonction d'utilité, nous noterons la fonction de l'ensemble des issues d'un jeu vers i. Une telle fonction sera dite représentant de la relation de préférence si pour toute issue , nous avons : correspondant aux utilités d'u joueur

  (15)

La théorie de l'utilité qu'utilise la théorie des jeux, axiomatise le fait que seule cette notion de préférence est importante. En bref, nous dirons que seul l'ordre de préférence de l'utilité des issues est important, la valeur des gains apportés par chaque issue étant sans importance.

Nous pouvons maintenant étendre la définition du jeu :

D9. Un "jeu sous forme développée" est la donnée :

- d'un arbre de jeu

- d'un ensemble N de joueurs

- d'une fonction d'utilité U qui donne pour un joueur donné son gain

- d'un ensemble de partition d'informations F, dont chaque élément est une partition de D et indique les états du jeu que le joueur est capable de distinguer

Remarque: Comme nous l'avons déjà précisé, un jeu sous forme développée est également dite "forme extensive", ou encore "arbre de Kuhn".

D10. Une jeu est à "information complète" quand chaque joueur connaît l'ensemble des composantes du jeu, et à "information incomplète" sinon. Il est à noter que de parler d'un jeu à information complète revient à dire que F ne contient qu'une seule partition et donc que les joueurs n'ont qu'une seule vue sur l'arbre de jeu.

D11. Un jeu est à "information parfaite" quand l'unique élément de F se réduit à une partition de D où chaque nœud de décision forme un sous-ensemble, c'est-à-dire que chaque élément de la partition est un nœud de l'arbre et réciproquement. Plus simplement, nous pouvons dire que dans ce cas les joueurs peuvent savoir à chaque instant quel nœud de l'arbre est atteint. Dans le cas contraire le jeu est dit à information imparfaite.

Remarque: Nous pouvons remarquer que toues les jeux simultanés, c'est-à-dire dans lesquels les joueurs font leur choix en même temps, sont des jeux à information imparfaite. En effet, au moment de son choix, le joueur ne pas sur quel nœud de décision il se trouve.

Maintenant nous pouvons en venir à définir ce qu'est la matrice des gains :

D12. Un "jeu sous forme normale" est la donnée :

- d'un ensemble N de joueurs

- d'un ensemble S de combinaisons stratégiques

- d'une fonction d'utilité U définie sur S

Ainsi, un jeu sous forme normale est également dit sous forme stratégique. Nous simplifions d'ailleurs la donnée du jeu à la donnée de la fonction d'utilité, sous la forme d'une matrice de gain (ou de paiement).

D13. Un jeu est "concurrentiel pur" ou "strictement compétitif" si :

  (16)

Donc un jeu est strictement compétitif si pour un ensemble couple d'issues, les gains d'un au moins des joueurs diminue. Si les deux joueurs ont pour un couple d'issues, leurs gains respective qui augment ou diminuent respectivement, alors nous avons :

  (17)

le jeu n'est dès lors plus strictement positif. Nous en avons par ailleurs donné des exemples au début de ce chapitre.

D14. Un jeu strictement compétitif est un "jeu à somme nulle" si :

  (18)

Un jeu est à somme nulle quand les intérêts des joueurs sont diamétralement opposés. Dans un jeu à deux joueurs à somme nulle, par exemple, ce qui est gagné par l'un est perdu par l'autre. Ce terme trouve son origine dans les jeux de salon comme le poker où un joueur qui veut gagner de l'argent doit le faire aux dépens des autres. Les échecs sont un jeu à somme nulle.

D15. Un "superjeu" est la donnée :

- d'un jeu constitutif

- du nombre de répétition T

- du vecteur de taux d'escompte d'utilité, étant le taux d'escompte du joueur (souvent pris comme égal à l'unité)

Ainsi, comme nous en avons déjà fait mention lors de notre jeu répétitif GDS2, nous considérons qu'à une étape t le choix dicté par une combinaison stratégique s au joueur n est noté et que l'utilité, pour ce même joueur, obtenu à cette étape du jeu, c'est-à-dire l'utilité issue du jeu constitutif correspondant, est notée , alors l'utilité associée à l'issue du superjeu est :

  (19)

il est clair que si nous retrouvons une définition intuitive simple de la cumulation des gains.

FORMES GRAPHIQUES

Nous avons maintenant amassé suffisamment d'élément pour avoir une approche probabiliste et opérationnelle de jeux à somme nulle relativement simples.

Comme il est toujours relativement difficile d'être trop théorique pour que ce domaine reste compréhensible étudions les formes graphiques via un exemple.

Considérons deux sociétés que nous nommerons respectivement S1 et S2 qui sont spécialisées dans la vente à grande échelle d'un certain produit et qui forment un oligopole bilatéral en concurrence parfaite (cf. chapitre d'économétrie). La société S1 décide d'investir un nouveau marché, constitué par un ensemble de régions d'importances comparables.

La pénétration dans différentes régions s'opère grâce à l'installation d'un présentoir dans une chaîne de magasins C1 ou C2 dans chacune des région. Pour mieux motiver ses détaillants, la société S1 ne choisira qu'une seule chaîne de distribution (C1 ou C2) par région pour vendre ses produits.

La société S2 ayant pris connaissance du projet de la société S1 décide alors aussi d'investir le marché de manière similaire.

Le problème pour chaque société est de savoir, pour chaque région, s'il vaut mieux faire installer un présentoir dans la chaîne de magasins C1 ou C2 ou ne pas en faire installer du tout, c'est-à-dire nulle part (ce que nous noterons NP).

Suite à une étude de marché (il faut bien obtenir au moins quelques chiffres au départ pour faire des maths…) la société S1 apprend que ses gains par rapport au concurrent seraient ceux représentés dans le tableau ci-dessous :

S1 / S2

C1

C2

NP

C1

0

2

4

C2

6

-3

8

NP

-3

-5

0

  (20)

La société S2 arrive au même résultat suite à une étude de marche (nous simplifions par cette hypothèse l'analyse du problème).

Remarques:

R1. Puisque tout ce gagne un concurrent serait perdu par l'autre, le jeu est à somme nulle (d'où le fait qu'il n'y ait qu'une seule valeur dans chaque cellule)

R2. Nous supposerons que les deux sociétés ne peuvent et ne veulent pas communiquer entre elles, en d'autres termes qu'il s'agit d'un jeu non coopératif.

Commençons par analyser quelles sont les stratégies qui n'ont aucun intérêt pour l'une ou l'autre des sociétés.

Pour cela, regardons s'il y a une stratégie qui ne sera jamais choisie par S1 quelque soit la stratégie de S2 :

1. Si S2 choisit C1 alors S1 aura pour meilleur intérêt à choisir C2

2. Si S2 choisit C2 alors S1 aura pour meilleur intérêt à choisir C1

2. Si S2 choisit NP alors S1 aura pour meilleur intérêt à choisir C2

Nous voyons ici que quelque soit le choix de S2, la société S1 ne choisira jamais NP. Donc la stratégie NP pour S1 est totalement dominée et peut être éliminée.

De même, regardons s'il y a une stratégie qui ne sera jamais choisie par S2 quelque soit la stratégie de S1.

1. Si S1 choisit C1 alors S1 aura pour meilleur intérêt à choisir C1

2. Si S1 choisit C2 alors S1 aura pour meilleur intérêt à choisir C2

3. Si S1 choisit NP alors S1 aura pour meilleur intérêt à choisir C2

Nous voyons ici que quelque soit le choix de S1, la société S2 ne choisira jamais NP. Donc la stratégie NP pour S2 est totalement dominée et peut être éliminée.

Le tableau se simplifie alors de la manière suivante :

S1 / S2

C1

C2

C1

0

2

C2

6

-3

  (21)

Par ailleurs, ce jeu ne contient pas d'équilibre de Nash (donc aucune stratégie pure n'est avantageuse). Il est donc sans équilibres. Effectivement, si S1 choisit C1 alors S2 a intérêt à choisir aussi C1. Mais S1 à alors meilleur intérêt à jouer C2. Mais S2 a maintenant intérêt a choisir plutôt C2. Ce qui redonne à S1 l'envie de choisir C1…

Etudions maintenant l'aspect ensembliste, en d'autres termes l'aspect du jeu qui va donner la stratégie mixte à opter par S1 avec la répartition du choix ad hoc pour que celle-ci ait un gain maximal.

Pour cela, appelons p et q les fréquences avec lesquelles les sociétés S1 et S2 choisissent la chaîne de magasin C1.

S1 / S2

C1

C2

 

C1

0

2

p

C2

6

-3

1-p

 

q

1-q

 
  (22)

Ces probabilités doivent être interprétées comme de la manière suivante :

1. Si p et q sont égaux à l'unité alors pour toutes les régions ce sera la chaîne C1 qui s'occupera de la commercialisation

2. Si p et q sont par exemple 9/11 et respectivement 5/11 cela signifiera que la société S1 donnera le droite de vente à la chaîne de magasins C1 dans 9 régions sur 11 (les deux restantes étant pour C2) et respectivement la société S2 donnera le droite de vente à la chaîne de magasins C1 dans 5 régions sur 11 (les 6 restantes étant pour C2).

Donc commençons notre étude. Nous allons nous mettre dans une optique d'analyse dans laquelle la société S1 cherche sa stratégie mixe de manière à maximiser son gain (ou utilité) que nous noterons v et à connaître la stratégie mixte de la société S2 afin qu'elle minimise sa perte v (puisque c'est un jeu à somme nulle et tout ce que gagne l'un l'autre le perd).

Le système d'équation sera alors naturellement pour la société S1 :

  (23)

et pour la société S2 :

  (24)

Or, nous retrouvons ici une situation remarquable. Effectivement il ne s'agit que de deux formes standards de programmation linéaire (cf. chapitre de méthodes numériques). Nous avons vu lors de notre étude de celle-ci que lorsqu'il y a qu'une seule inconnue par forme (ou système) alors il est possible de passer par une résolution graphique sans faire usage de l'algorithme du simplexe.

Après simplification cela donne :

  (25)

et la représentation graphique de v en fonction de p correspondante :


  
(26)

En résolvant avec l'algorithme du simplexe nous avons comme valeurs optimales pour les deux systèmes respectifs (il est aussi possible de lire la valeur approximative sur les graphiques mais bon…) :

  (27)

La société S1 peut par conséquent se garantir un gain moyen v (on devrait dire plutôt une espérance pour être rigoureux) de 12/11. Effectivement :

  (28)

et la probabilité p donnant au fait la distribution entre les chaînes de magasin C1 qui aura 9/11 du marché de l'ensemble des régions et C2 le reste soit 2/11 (la somme devant faire bien évidemment 1).

La société S2 peut par conséquent se garantir aussi un gain moyen v  de 12/11. Effectivement :

  (29)

et la probabilité q donnant la distribution entre les chaînes de magasin C1 qui aura 5/11 du marché de l'ensemble des régions et C2 le reste soit 6/11.

JEUX COOPÉRATIFS ET NON-COOPÉRATIFS

Une première approche (sans faire usage des maths dans un premier temps) de cette attitude d'esprit (forme de jeu) est accessible à de jeunes enfants (sans qu'ils le sachent!).

Exemple:

Imaginons deux enfants, l'un et l'autre gourmands, en présence d'un gâteau homogène, parfaitement divisible (et très bon...). Si la maman fait deux parts, il y aura immanquablement des disputes, chacun trouvant plus grosse la part de l'autre. Le seul moyen (hors dictat) d'éviter toute dispute est pour la mère d'imposer la règle suivante : l'un des enfants effectue le partage, et l'autre choisit en premier sa part. Celui qui coupe ne peut pas raisonner en tenant compte de ses seules préférences, qui le pousseraient à se couper une grosse part. Il sait en effet que l'autre pourra choisir sa part. Si donc il coupe une part plus grosse que l'autre, il risque de la retrouver dans l'assiette du voisin. Il va donc s'efforcer de couper des parts aussi égales que possibles, à ses yeux. Ainsi, quel que soit le choix de l'autre, il ne s'estimera pas maltraité. C'est cette anticipation du choix d'un autre décideur qui constitue l'originalité de la théorie de la décision et de la coopération !

Définitions:

D1. La partie de la théorie des jeux qui s'occupe de la détermination des éléments socialement préférables (au niveau du groupe plutôt que de l'individu seul en d'autres termes) de l'ensemble des issues I est souvent dite "coopérative" ou "coalitionnelle". Elle nécessite que les différentes parties puissent communiquer entre elles et... qu'elles soient rationnelles.

D2. La partie dite, au contraire, "non coopérative" ou "stratégique" ne s''intéresse pas à la mise en œuvre des solutions préconisées par la théorie des jeux coopératifs qui ont force de loi. Elle suppose que les différentes parties en communiquent pas entre elles ou ne sont pas rationnelles.

Cette distinction entre jeux coopératifs et jeux non-coopératifs prête souvent à confusion. Essayons de la dissiper pour partie. Tout d'abord, cette distinction ne signifie nullement que les comportements que nous concevons intuitivement comme "coopératifs", au sens où ils induisent une part de sacrifice de nos intérêts propres au profit d'un bien jugé supérieur, ne pourront apparaître que dans le cadre des jeux coopératifs, au contraire! Les jeux stratégiques se soucient beaucoup de l'apparition endogène de tels comportements. Inversement, les jeux coopératifs sont très attentifs au respect des intérêts des individus. C'est là d'ailleurs l'une des difficultés principales qu'il leur faut affronter : si sacrifice individuel pour le bien commun il doit y avoir, qui doit se sacrifier ? Et pourquoi tel individu plutôt qu'un autre ?

Une fois défini l'ensemble I unanimement considéré comme représentant toutes les issues possibles du problème que nous cherchons à résoudre, il nous faut déterminer  des critères qui permettent de sélectionner le "meilleur" état possible, compte tenu des appréciations diverses et contradictoires dont fait l'objet par les différents citoyens en présence.

Nous savons que cette appréciation se mesure au moyen de la fonction d'utilité   définie sur I et prenant ses valeurs dans . Ainsi, si le système que nous considérons comporte individus et si  est l'issue sélectionnée,  est la gain accordé par le joueur i à x.

Remarque: Si chaque individu avait le pouvoir d'imposer sa volonté aux autres (quitte, au besoin, à la faire passer pour la "volonté générale"), il choisirait tout simplement l'issue x qui maximise  (c'est-à-dire son gain).

OPTIMUM DE PARETO

Un premier critère qui vient à l'esprit, et qui est dû au sociologue italien Vilfredo Pareto, est celui de l'optimalité qui porte son nom (à ne pas confondre avec la "loi de Pareto" concept complétement empirique en économie comme quoi la plupart des répartitions se font selon un rapport 20/80% - cf . chapitre de techniques de gestion).

Considérons deux issues x et y, appartenant toutes deux à I, et supposons que, pour chaque individu i, nous ayons la situation suivante:

  (30)

En d'autres termes, aucun individu ne serait à priori lésé si nous substituions à chacun l'état y à l'état xj qui préfère strictement y à x tel que : . Supposons de surcroît, qu'il existe au moins une personne

  (31)

Dans ces conditions, nous ne voyons plus vraiment ce qui devrait retenir le législateur de choisir yx. plutôt que

Défintion : Une issue i réalisable qui n'admet aucune "amélioration" est appelée un "optimum de Pareto" (O.P.) et est définie rigoureusement par :

  (32)

La "pareto-optimalité" est à comprendre comme une condition sine qua non, un "minimum minimorum", sans lequel le concept de solution d'un jeu coopératif que nous cherchons à élaborer devrait être automatiquement rejeté.

Remarque: Ce résultat forme rejoint donc ce que nous avions déjà écrit en début de chapitre. C'est--à-dire que si dans un jeu, un couple d'issues est telle qu'il est impossible d'améliorer le score de l'un des deux joueurs sans diminuer le score de l'autre, nous disons que ces issues sont "pareto-optimales" ou "pareto-efficientes".

ÉQUILIBRE DE NASH

Définition: "L'équilibre de Nash" (ou "équilibre" tout court) décrit une issue d’un jeu dans lequel aucun joueur n’a intérêt à modifier sa stratégie unilatéralement, compte tenu des stratégies des autres joueurs.

Remarque: Nous avons déjà vu de nombreux exemples avec des équilibres précédemment.

Soit un jeu à n joueurs, et une combinaison de choix stratégiques de ces n joueurs où  est le meilleur choix stratégique du joueur i et avec , l’ensemble des stratégies praticables par le joueur i. Soit le gain du joueur i lorsque  est sélectionné.

Une combinaison de choix stratégiques est un équilibre de Nash si et seulement si:

  (33)

pour tout dans  et tout i.

Interprétation: aucun joueur ne peut bénéficier d'une déviation de , quelle que soit la stratégie qu'il choisisse dans son ensemble . Ainsi, aucun joueur n’a intérêt à dévier, et  est un équilibre

Remarque: Il peut arriver qu'un optimum de Pareto se confonde à l'équilibre de Nash mais ce n'est pas toujours le cas (donc un équilibre de Nash n'est pas toujours un optimum de Pareto).

Définition: Quand la stratégie d'un joueur est la meilleure réponse face à toutes les stratégies possibles de ses rivaux, nous parlons alors de "stratégie dominante" (cette stratégie domine toutes les autres stratégies du joueur). L'équilibre de ce jeu est alors appelé "équilibre en stratégie dominante".

In extenso, une stratégie est "dominée" si elle procure au joueur des gains toujours inférieurs à ceux associés à au moins une autre de ses stratégies.

Remarque: Nous pouvons nous interroger si dans un jeu non-coopératif l'équilibre de Nash (s'il existe) n'est pas tel qu'il amène de toute façon à une coopération implicite ? Au fait, ce n'est pas le cas (et c'est un résultat très important) car comme nous verrons dans l'étude du fameux dilemne du prisonnier un jeu dont l'équilibre de Nash est assuré par des choix individualistes et rationnels tels qu'ils soient non coopératifs !!! Ce sera donc un exemple extrêmement important dans le cadre de l'économie de marché.

Méthode : Une manière de déterminer les équilibres d'un jeu consiste à éliminer en premier toutes les stratégies dominées puis à rechercher les équilibres dans le jeu ainsi réduit.

Exemple:

En éliminant les stratégies dominées (mêmes faiblement dominées) pour chacun des joueurs, nous tombons sur (6 , 4) qui est comme nous le voyons un équilibre de Nash (car c'est celle où aucun joueur n'a intérêt à changer de stratégie).

J1 / J2

S1

S2

S3

S1

5 , 2

4 , 4

6 , 4

S2

3 , 1

2 , 0

5 , 2

  (34)

Le jeu suivant par contre, ne comporte pas d'équilibre de Nash. Effectivement, quelque soit le couple de stratégies envisagé, l'un des joueurs obtient toujours plus en modifiant son choix.

J1 / J2

S1

S2

S1

1 , 0

0 , 1

S2

0 , 1

1 , 0

  (35)

Toutefois, pour le moment il apparaît pour le moins prématuré de prescrire aux joueurs le choix d'un équilibre; certes s'il est choisi, la situation a une certaine stabilité, mais il reste trois difficultés :

1. Nous ne sommes pas assurées de l'existance d'un couple de tactiques en équilibre (conjonction des tactiques prudentes)

2. Même en cas d'existence, nous ne sommes pas assuré de l'unicité d'un couple de tactiques en équilibre

3. Même en cas d'existence et d'unicité, nous pouvons préscrire un autre choix (!!!!)

UTILITÉ ESPÉRÉE

Soit le jeu non coopératif à somme nulle :

J1 / J2

S1

S2

S1

0

2

S2

3

1

  (36)

qui ne comporte pas d'équilibre comme nous l'avons vu plus haut. Dans ce genre de jeu, toute recommandation à un joueur de choisir une tactique plutôt qu'une autre peut lui nuire, dès lors que l'adversaire en est informé, ou peut deviner cette recommandation.

Effectivement, si pense que va choisir sa tactique 1, il a intérêt à choisr sa tactique 2 (utilité 3 contre 0). Mais alors, si pense que va choisir sa tactique 2, il a intérêt à choisir sa tactique 2 (perte 1 au lieu de 3). Alors, si pense que va choisir sa tactique 2, il a intérêt à choisir tactique 1 (utilité 2 contre 1). Mais alors, si pense que va choisir sa tactique 1, il a intérêt à chosir sa tactique 1 (perte 0 au lieu de 3). Et le boucle est bouclée.

En définitive, la chose qui importe avant tout dans un jeu non coopératif c'est que la tactique d'un joueur ne puisse pas être devinée par son adversaire. Comme tout raisonnement pourrait être percé à jour, les adversaires étant parfaitement rationnelles et informés, la seule solution imaginable est de s'en remettre à un processus précis, appuyés sur des probabilités affectées aux diverses tactiques possibles. Ainsi, comme nous l'avons défini plus haut, le jeu comporte un aspect à "stratégie mixte".

Naturellement, le résultat obtenu par le joueur ne peut pas être garanti de façon certaine, puisque le processus de choix de la décisions fait intervenir des probabilités. Comparer des résultats revient donc à comparer des loteries. Nous imaginons la situations d'un amiral devant répondre devant un tribunal militaire de la perte d'un navire, et expliquant qu'il a pris sa décision en jouant aux dés (en supposant une bataille sans équilibre de Nash et non-coopérative) : même parfaitement conforme aux prescriptions de la théorie des jeux, cette explication aura peine à convaincre !

CRITÈRE D'HURWITZ

Il nous faut donc introduire une utilité probabiliste (appelé aussi parfois le "critère d'Hurwitz"). Considérons un jeu à deux stratégies propres et notons l'utilité respective :

  (37)

qui permet d'obtenir avec une probabilité P et avec une probabilité 1-P. Cette relation est s'écrit avec des notations évidentes (cf. chapitre de probabilités) :

  (38)

avec E que nous appellerons "l'utilité espérée" (en similitude avec le concept d'espérance vu en probabilité et statistiques) ou "espérance de gain anticipée".

Nous pouvons déjà noter que, s'il existe une telle utilité (espérée), il en existe une infinité à un arbitraire près, obtenues à partir de U par une transformation affine strictement croissante, c'est-à-dire une relation de la forme :

avec   (39)

En effet, la relation :

  (40)

entraîne pour :

  (41)

qui, additionnée terme à terme à la relation évidente (nécessaire) :

  (42)

conduit bien à :

  (43)

Cela prouve entre autres ce que nous avions énoncé plus haut : nous pouvons toujours choisir une fonction d'utilité (et ce même dans une optique de stratégie pure où ou ) telle que les delta des gains de joueurs dans les jeux à somme nulle soient égaux et opposés.

Remarque: L'utilité espérée (ou "critère d'Hurwitz") se confond avec le critère du maximin lorsque et du maximax lorsque (voir plus loin).

Voyons de suite un exemple en considérant le jeu à somme nulle suivant :

J1 / J2

b1

b2

a1

5

2

a2

3

4

  (44)

Nous voyons dans ce jeu qu'il n'a pas d'équilibre de Nash (et donc pas de col). Effectivement, si va décider , il a intérêt à choisir (perte de 2 au lieu de 5). Mais comprenant cela, va changer pour (gain de 2 au lieu de 4). Mais devinant cela va changer pour (perte de 3 au lieu de 4), et qui a tout compris va revenir à (gain de 5 au lieu de 3). pense que

Considérons maintenant que le joueur va choisir un nombre compris entre 0 et 1, soit x, et prendra les décisions avec la probabilité x et avec la probabilité 1- x. De même, le joueur va choisir un nombre compris entre 0 et 1, soit y, et prendra les décisions avec la probabilité et avec la probabilité 1- y.

Les résultats de ces décisions conjointes sont alors :

- 5, résultant de la conjonction de , obtenue avec la probabilité xy (les décisions des deux joueurs étant indépendantes !)

- 2, obtenu avec la probabilité

- 3, obtenu avec la probabilité

- 4, obtenu avec la probabilité

L'espérance de est donc :

  (45)

Remarque: Nous voyons bien que si x=0 (et y=1) alors nous tombons sur le critère du Minimax (le gain maximum des stratégies les plus pessimistes) soit égal à 3. De même si x=1 (et y=1) alors nous tombons sur le crtière du Maximax (le gain maximum des stratégies les plus optimistes).

S'il y a équilibre entre les stratégies probabilistes, n'aura aucune raison de modifier la valeur de x. Dès lors, la dérivée par rapport à x doit être nulle tel que (maxima) : dans l'espoir d'augmenter

  (46)

Dans ces conditions :

  (47)

Pour examiner ce qui s'offre à , dont l'espérance, rappelons-le, sera dans un jeu à somme nulle nécessairement opposée à celle de , nous écrivons :

  (48)

En appliquant le même raisonnement (mais implicitement en minima) :

  (49)

Dans ce cas :

  (50)

Ainsi, nous avons déterminé les probabilités des stratégies qui maximisent l'espérance des gains de ce jeu non-coopératif ! En les adoptant est certain d'une espérance au moins égale à n'a rien à gagner à modifier sa stratégie) et est certain d'un espérance au moins égale à . Le nombre est la " (puisque valeur du jeu".

Définition: Si la valeur du jeu d'un jeu non-coopératif à stratégie mixte est égale pour les deux joueurs, nous disons alors qu'il s'agit d'une "équilibre en stratégie mixte" (aucun des joueurs n'a intérêt à dévier unilatéralement).

Ce résultat est certainement le plus remarquable jusque là sur ce chapitre car les jeux non-coopératifs sont les plus nombreux sur le marché.

CRITÈRE DE LAPLACE

Le critère de Laplace est un critière qui affecte la même probabilité, en l'absence d'information, pour chaque décision (équiprobabilité). Il s'agira de calculer une espérance de gain pour chaque décision compte tenu de la probabilité affectée.

Autrement dit, le critière de Laplace consiste à déterminer pour chaque projet l'espérance mathématique en affectant la même probabilité à chaque état de la nature et retenant celui dont l'espérance est la plus élevée.

Voyons de suite un exemple en considérant à nouveau le jeu de somme nulle suivant :

J1 / J2

b1

b2

a1

5

2

a2

3

4

  (51)

En appliquant l'équiprobabilité, nous avons le tableau suivant :

J1 / J2

E(b1)

E(b2)

E(a1)

5/2+2/2=3.5,5/2+3/2=4

5/2+2/2=3.5,2/2+4/2=3

E(a2)

3/2+4/2=3.5,5/2+3/2=4

3/2+4/2=3.5,2/2+4/2=3

  (52)

Le jeu devient alors :

J1 / J2

E(b1)

E(b2)

E(a1)

3.5 , 4

3.5 , 3

E(a2)

3.5 , 4

3.5 , 3

  (53)

Dans cet exemple, où l'espérance est toujours égale pour le joueur quelque soit sa stratégie, le joueur 2 choisira la stratégie où l'espérance de sa perte est la plus faible soit . Nous avons donc ici une équilibre de Nash (sans optimum de Pareto).

JEUX ÉVOLUTIONNAIRES

Les stratégies de l'évolution biologique comme nous en avons fait mention au début de ce chapitre peut être modélisée à l'aide de la théorie des jeux. Dans ce cadre, le biologiste est amené à définir des relations remarquables définissant une stratégie d'évolution donnée (dominance, stagnation, suicide).

Définition: Une "stratégie évolutionnaire stable (SES)" (ou "evolutionary stable strategy" ESS) est une stratégie adoptée par la majorité et empêchant qu'une population soit envahie par un mutant qui recourrait à une stratégie différente.

Cette stratégie s'écrit sous la forme d'une condition de stabilité tel que soit deux stratégies de deux joueurs nous ayons :

  (54)

ou (si cette dernière n'apparaît pas) par la simultanéité des deux stratégies de non sélection et suicide :

et   (55)

- La première relation signifie qu'en aucun cas un individu n'a à changer de stratégie pour se défendre contre une évolution mutante ayant la même stratégie que lui car toute autre lui serait défavorable.

- La deuxième relation signifie que quelque soit la stratégie optée contre une stratégie mutante, il y aura stagnation.

- La troisième relation signifie que contre , toute stratégie différente de est préférable pour contrer même. Autrement dit, appliquer une stratégie différente de est suicidaire (le cas contraire ne l'est donc pas!).

Exemple:

Voyons un jeu connu Faucons (Hawk) contre Colombes (Dove).

Ce jeu vise à modéliser les rapports entre individus en compétition pour une ressource rare, c'est-à-dire dont le degré d'adaptation va être modifié à la fois par l'obtention de cette ressource et par les violences qu'ils subiront ou infligeront pour l'obtenir.

Dans leurs interactions compétitives, les organismes recourent à deux types de comportements/stratégies : la stratégie du faucon et celle de la colombe. Le faucon intensifie le conflit jusqu'à ce qu'il soit blessé ou jusqu'à ce que l'autre batte en retraite. La colombe se retire après une première démonstration de force si l'adversaire choisit d'intensifier le conflit. Lorsque deux faucons se rencontrent, l'un est blessé et l'autre emporte la ressource. Si un faucon affronte , il s'empare de la ressource sans danger d'être blessé et la colombe n'obtient ni avantage ni dommage. Enfin, deux colombes se partagent également la ressource.

Nous posons également les hypothèses suivantes :

H1. Les affrontement se déroulent un à un

H2. La population est infinie

H3. Les recontres sont aléatoires

H4. Les combats sont symétriques (au sens où ni l'age, ni la taille, ni l'expérience n'influent sur l'issue du combat)

H4. Il est impossible de savoir avant le début d'un conflit quellle stratégie un animale adoptera.

Sur la base de ces règles d'interaction (assez loin de la réalité...), il est possible de construire le tableau du jeu qui nous permettra de calculer les avantages ou les désavantages des diverses stratégies selon les circonstances.

Ainsi le tableau de jeu est le suivant :

 

J1 / J2

H

D

H

(V-C)/2 , (V-C)/2

V , 0

D

0, V

V/2 , V/2

  (56)

Comme il s'agit d'un jeu à somme nulle, nous pouvons le simplifier :

J1 / J2

H

D

H

(V-C)/2

V

D

0

V/2

  (57)

Nous notons ici V l'avantage qu'un organisme retire de l'obtention de la ressource. V désigne non la ressource elle-même, mais l'accroissement du degré d'adaptation qu'elle procure à l'organisme qui l'obtient. C correspond au coût payé, mise en danger ou blessure, pour acquérir la ressource.

D'abord explicitons la manière avec laquelle il faut lire ce tableau :

1. Pour la stratégie - tout le monde est gentil avec tout le monde - le gain total des deux individus est :

  (58)

La population restera donc constante (c'est la stagnation).

Bref, deux colombes se partagent à l'amiable la valeur de la ressource.

2. Pour les stratégies les "colombes" D sont toujours perdantes (elles ne progressent pas dans leur évolution). Leur gain est nul alors que les "faucons" auront éliminé le nombre V de colombes (d'où le gain).

3. Pour la stratégie les "faucons" supportent une perte du type C est une constante et telle que la somme des gains des faucons est normalement inférieur à V. Autrement dit :

  (59)

Bref, lorsqu'un faucon en affront un autre, il obtient en moyenne une fois sur deux la valeur de la ressource diminumé du prix encouru pour l'obtenir.

Remarque: Ce jeu peut-être vu comme un jeu de guerre entre deux joueurs… l'interprétation des résultats sont dès lors plus que pertinents.

Nous devons maintenant considérer deux stratégies :

1. L'étude du jeu de manière globale en stratégie pure (sans probabilités donc)

2. L'étude du je de manière globale en stratégie mixte (faisant intervenir les probabilités)

Commençons par le premier en considérant les configurations  :

- Si , en choisissant (qui est dès lors l'équilibre de Nash strict du jeu) nous pouvons observer que la jeu sera du type évolutionnaire stable (SES). Effectivement, nous retrouvons la relation :

  (60)

ce qui correspondant bien à et nous pouvons aussi observer qu'il existe aussi une stratégie faiblement dominante (pas de sélection naturelle) dans :

  (61)

correspond bien à . Mais celle-ci ne sera pas adoptée puisque moins forte que l'équilibre de Nash.

- Si , le jeu est aussi du type SES. Effectivement, devient une stratégie faiblement dominante :

  (62)

ce qui correspondant bien à et il n'y a dès lors pas d'évolution et nous pouvons aussi observer qu'il y a aussi :

  (63)

correspondant à .

Puisque nous avons simultanément et lorsque le jeu est une SES.

- Si , ni H, ni D ne sont des stratégies dominantes et nous n'avons pas de SES :

  (64)

et :

  (65)

ces deux dernières relations correspondant toutes . C'est plutôt embêtant… c'est une sorte de suicide collectif.

Remarque: Ces deux dernières relations nous amènent à observer que les faucons ne voudront pas forcément révéler aux autres faucons leur stratégie de prédateurs de colombes, puisque : toute stratégie vaut mieux être contrée par une autre stratégie plutôt que par elle-même. Ils préfèrent peut-être discuter entre eux ce qui amène au fait que le jeu est dès lors non-coopératif.

Cherchons maintenant à l'aide de l'étude en stratégie mixte ce que nous pourrions faire pour amener la dernière configuration précédente à un ESS (relativement à la dernière configuration afin de voir de plus près ce que nous pouvons faire pour éviter cela) :

Nous considérons une population d'individus qui jouent une donc une stratégie mixte que nous noterons pour chacun avec et . Si (stratégie pure), nous aurons dès lors reprenons maintenant l'études des trois configurations : .

- Si avec nous avons toujours avec :

  (66)

en d'autres termes, la stratégie sera toujours du type évolutionnaire stable (SES) si est une stratégie pure et ce même si peut varier et s'approcher de .

- Si avec nous avons toujours avec :

et   (67)

en d'autres termes, la stratégie sera toujours du type non sélective si est une stratégie pure et ce même si peut varier et s'approcher de .

- Si et , nous laissons tomber pour ne s'intéresser qu'à la généralisation . Nous avons alors :

  (68)

Effectivement :

  (69)

De même :

  (70)

Effectivement :

  (71)

Et nous aimerions arriver à une SES en stratégie mixte. Cela est-il possible ?

Dans le cadre d'un stratégie mixte, nous avons démontré lors de l'étude d'un jeu à somme nulle que l'équilibre mixte était donné par :

  (72)

Il est donc assez évidant que pour un jeu qui n'est pas à somme nulle nous ayons l'équilibre mixte quoi soit donné par :

  (73)

Dès lors, cherchons la relation entre P, C, V tel que cet équilibre soit atteint :

  (74)

En connaissant les utilités :

  (75)

d'où nous tirons que l'équilibre en stratégie mixte est donnée par :

  (76)

et donc que l'équilibre est donné par la stratégie mixte :

  (77)

A quoi cette stratégie va-t-elle mener ? Eh bien simplement dans le cas suicidaire cette stratégie mixte est la meilleure réponse contre elle-même (c'est ce qu'il est possible de faire de mieux dans ce qu'il y de pire) car elle amène aux deux conditions qui satisfont une SES.

ÉQUILIBRE DE COURNOT

Imaginons deux propriétaires M et N, et deux sources dont les qualités sont identiques et qui se trouvent placées de manière à alimenter concurrement le même marché; de sorte que la quantité totale livrée au commerce se compose de la somme des quantités , livrées par chacun des propriétaires à un prix qui est nécessairement le même pour chacun d'eux puisqu'il n'y a aucun motif de préférer une source à l'autre. Ce prix se trouve déterminé quand la somme des quantités m,n l'est elle-même, à cause de la liaison qui existe entre le prix et la demande.  Admettons que le propriétaire N ait fixé arbitrairement, sans égard aux prix, la quantité n qu'il entend livrer: alors le proprétaire M fixera le prix de vente, c'est-à-dire la production totale (composée de la somme des quantités m et n), c'est-à-dire encore sa production de manière à se procurer le plus grand revenu possible.

Dans la pratique, une suite de tâtonnements et d'oscillations amènera les deux propriétaires à cette position d'équilibre, et la théorie montre que cet équilibre est stable: c'est-à-dire que si l'un ou l'autre des propriétaires, trompés sur ses intérêts véritables, vient à s'en écarter momentanément, il y sera ramené par une suite d'oscillations du genre de celle qui avaient primitivement abouti à constituer l'équilibre.

Nous allons mettre en place une situation de jeu à deux personnes. Nous poserons que le prix P est une fonction affine de la quantité totale produite:

  (78)

 est une constante de normalisation des unités.

Nous supposerons égaux et fixes les coûts marginaux de production, représentés par le nombre , et nuls les coûts fixes, en sorte que le coût de production s'écrive respectivement  et  pour les deux sources.

Le modèle de Cournot pose que les deux entreprises fixent les quantités qu'elles produisent simultanément, ou, à tout le moins dans l'ignorance mutuelle de la tactique de l'autre.

Pour reconnaître un jeu sous forme normale, il ne nous reste plus qu'à reconnaître le gain retiré par chacun des adversaires pour tout couple de tactique afin de pouvoir si on le désire construire la matrice des gains.

Le profit de M est :

  (79)

et celui de N :

  (80)

La recherche d'un équilibre de Nash conduit chaque entreprise à choisir sa production pour maximiser son profit et minimiser ses coûts de stockage (voir modèle de Wilson), la production de son partenaire étant supposée connue.

Dans ce but, on annule la dérivée des deux fonctions précédentes :

  (81)

Système dont la résolution conduit très facilement à la détermination de :

  (82)

(resterait à vérifier que ce sont biens des maximums, en contrôlant les dérivées de deuxième ordre et non des extrêmums).

Le prix de vente dans le cadre d'un équilibre de Nash serait alors :

  (83)

et le profit de chaque entreprise :

  (84)

Ces calculs sont à rapprocher du raisonnement purement économique, pour lequel chaque entreprise aimerait être seule, en monopole sur le marché. Le profit de l'entreprise M en situation de monopole serait:

  (85)

ce qui met en évidence la maximum, atteint pour (on cherche où la dérivée s'annulle):

  (86)

Ainsi, on voit très bien que la quantité produite en cas de monopole est plus grande qu'en cas de monopole et que le profit ainsi que les prix sont plus élevés.

L'idée serait maintenant, si l'on reveint à nos deux entreprises, qu'un accord soit établi (cas appelé "entente olipote" contre la concurrence et qui est interdit par la loi), qui leur partage ce profit majoré. La parfaite symétrie des situations conduirait au partage par moitiès. Mais la difficulté vient du fait que la décision de produire:

  (87)

n'est pas la meilleures réponse à produire la même quantité de l'adversaire en sorte que chacun soit incité à trahir l'accord de l'autre. Ainsi, le meilleur équilibre est celui de Nash qui impose:

  (88)

Lors de la mise au point d'une entente ou d'un cartel, on peut distinguer plusieurs nvieaux qui dépendent du degré de précision des règles fixées par l'ensemble des entreprises.

Le premier cas est celui qu'on peut appeler "l'entente parfaite"; c'est l'entente qui permet de maximiser le profit total des entreprises concernées. Une condition mathéamtique élémentaire est que toutes les entreprises doivent fonctionner avec le même coût marginal. En effet, la maximisation du profit total d'un ensemble d'entreprises s'écrit de la manière suivante:

    (89)

où rappellons-le

Ce profit est maximum quand toutes les dérivées partielles d'ordre 1 sont nulles et maximales (condition dites du "premier ordre"). Soit:

  (90)

La partie de gauche de la deuxième relation exprime la variation de recette totale provoquée par une petite variation de la quantité produite par le producteur i, et la partie droite exprime la variation de coût engendrée par la même variation de  (coût marginal du producteur i). La recette marginale provoquée par une variation donnée de production q est la même, que que soit le producteur qui a modifié sa production. En effet, l'influence d'une production additionnelle sur l'offre totale et sur le prix est identique, que cette production additionnelle vienne d'un producteur ou d'un autre.

Mais comme on l'a vue dans le duopoloe de carnot, ce type d'égalité admet un profit total maximum à condition que toutes les entreprises de l'entente aient leur coût marginal au même niveau, correspondant à la recette marginale du marché. Cette condition d'égalité est certainement pas une condition facile à remplir dans la réalité des ententes.




Ajouter un commentaire à cette page:
Votre nom:
Votre message:

 
  nombre de visiteurs venus 484389 visiteurs (2037861 hits) Ici!

Tracked by Histats.com
Recherche personnalisée
$value) { if ($param == 'client') { google_append_url($google_ad_url, $param, 'ca-mb-' . $GLOBALS['google'][$param]); } else if (strpos($param, 'color_') === 0) { google_append_color($google_ad_url, $param); } else if ((strpos($param, 'host') === 0) || (strpos($param, 'url') === 0)) { google_append_url($google_ad_url, $param, $google_scheme . $GLOBALS['google'][$param]); } else { google_append_globals($google_ad_url, $param); } } google_append_url($google_ad_url, 'dt', round(1000 * array_sum(explode(' ', microtime())))); return $google_ad_url; } $google_ad_handle = @fopen(google_get_ad_url(), 'r'); if ($google_ad_handle) { while (!feof($google_ad_handle)) { echo fread($google_ad_handle, 8192); } fclose($google_ad_handle); } ?>
 
 
=> Veux-tu aussi créer une site gratuit ? Alors clique ici ! <=