Escrito por: CB Garcia y WI Zangwill

Profesores de Ciencias de la Gestión en la Escuela de Negocios Booth (ambos jubilados)

Agosto revisado 18, 2018 de (García y Zangwill [8, 9]).

Palabras clave: Teoría del juego, dilema del prisionero, bayesiano, probabilidades subjetivas

Abstract: Von Neumann y Morgenstern (VNM), utilizando la hipótesis de utilidad esperada, proporcionaron la formulación fundamental del problema de la teoría de juegos. Hasta este momento, sin embargo, esa formulación había sido difícil de resolver sin imponer supuestos adicionales. Nash tuvo que suponer que los jugadores estaban desacoplados para que la probabilidad de que el jugador A tomara una acción era independiente de la probabilidad de que el jugador B tomara una acción. En este artículo eliminamos los supuestos de Nash, incluida la suposición de que las estrategias de los jugadores son de conocimiento común, y proponemos un modelo que es totalmente equivalente al problema general de VNM. Nuestra formulación fácil de resolver elimina algunas de las dificultades inherentes al enfoque de Nash, que a menudo producían resultados contradictorios y contradictorios, por ejemplo, al dilema del prisionero, el juego del pollo, la paradoja de Newcomb, la caza del ciervo y muchos otros juegos. Por ejemplo, al abandonar el supuesto de independencia mutua de Nash en el dilema del prisionero, nuestro modelo demuestra que los jugadores son capaces de lograr beneficios superiores, y para lograr eso, no necesitan jugar cooperativamente o comunicarse, sino simplemente aplicar el teorema de Bayes, al estilo de (Harsanyi [10]; Kadane y Larkey [11]). Nuestro enfoque divide el espacio de probabilidad en dos medios espacios o regiones, cuyo tamaño relativo depende de los beneficios. Ahora, uno no necesita estimar la probabilidad con precisión, sino solo determinar en qué región se encuentra. Esto proporciona ventajas significativas ya que, si una región es considerablemente más grande que la otra, esto proporciona inmediatamente una visión sustancial sobre cómo jugar el juego. Nuestra solución general, que no está correlacionada, digamos en el sentido de Aumann [1], contiene los equilibrios de Nash como soluciones particulares. En contraste con las soluciones descriptivas de Nash, nuestra solución es un par prescriptivo de estrategias puras de expectativas racionales, que proporcionan una nueva base para la teoría de juegos. Extendemos nuestro enfoque a los juegos generales de M-Person, como ilustramos en el juego piedra-papel-tijera y el problema del hacinamiento.

Resumen de Resultados.

Ahora resumimos algunos resultados, basados ​​en los detalles y pagos explícitos proporcionados a continuación. Creemos que estos resultados demuestran el valor de nuestro enfoque para la enseñanza y la investigación, ya que los resultados a menudo presentan nuevas soluciones.

Juego de coordinación: La suposición de independencia de Nash pierde el enfoque Bayesiano superior que adoptamos. Para los pagos que se proporcionan a continuación, juegue la primera estrategia si cree que la probabilidad del oponente de jugar su primera estrategia es al menos 1 / 3, de lo contrario, juegue la segunda estrategia. Nash no proporciona información sobre cuándo aplicar qué estrategia. Además, si se cambian los pagos, nuestro enfoque proporciona probabilidades revisadas. Batalla de los sexos: dos partes difieren sobre dónde deben ir, pero no se les permite comunicarse. Ambas partes obtienen una buena recompensa si ambas van a la misma opción, ya que al menos ambas están juntas. Una parte determinada obtendrá una bonificación si ambos van a la elección de esa parte. Ninguno de los dos obtiene una buena recompensa si van a lugares diferentes. Dadas las recompensas que se presentan a continuación, el jugador A debe jugar su estrategia deseada si cree que el otro jugador también seleccionará la opción deseada de A con una probabilidad de al menos 33%. Por el contrario, Nash proporciona tres equilibrios sin ninguna idea de dónde jugar cuándo y sin análisis de las probabilidades. Centavos coincidentes: dos jugadores, pares e impares, revelan simultáneamente un centavo. Si los centavos coinciden, Even conserva ambos centavos; de lo contrario, Odd se queda con ambos centavos. El único equilibrio de Nash para este juego de suma cero es que ambos jugadores jueguen al azar. Dados los pagos a continuación, Even debería jugar cara si cree que Odd jugará cara con una probabilidad de al menos 50%. Por otro lado, Odd debería jugar cara si cree que Even jugará cara con una probabilidad de 50% como máximo. Juego de pollo: dos autos se aceleran el uno hacia el otro y están a punto de tener un choque frontal. Nash sugiere que un auto debe desviarse y el otro debe ir en línea recta, pero ofrece poca información sobre cuál debe desviarse. Dadas las recompensas a continuación, nuestro enfoque sugiere que se desvíe si cree que el oponente se desviará con una probabilidad de 90 como máximo, de lo contrario, siga recto. Observe aquí que ambos jugadores desviando (o ambos yendo en línea recta) no es un equilibrio de Nash pero que ambos jugadores desviando (o ambos yendo en línea recta) con la expectativa de que el oponente irá en línea recta (o desviará) es un escenario de equilibrio. Además, si se cambian los pagos, nuestro enfoque proporciona probabilidades actualizadas. Carrera armamentista: cada país inicialmente almacena armas para que no sea atacado. Pero como se demuestra a continuación, los rendimientos decrecientes en el almacenamiento de armas se materializan, abriendo una oportunidad para un tratado de paz. Nash no identifica la oportunidad para el tratado de paz. Caza de ciervo: caza de ciervo si crees que el oponente cazará ciervo con una probabilidad de al menos 50%, de lo contrario, caza liebre. (Los equilibrios puros de Nash son para que ambos cacen ciervos, o para que ambos cacen liebres). El problema de Newcomb: si el problema de Newcomb se plantea como un dilema del prisionero, la solución al problema de Newcomb se puede llegar de dos maneras: como el equilibrio de Nash no cooperativo utilizando el principio de dominación, o como una solución cooperativa utilizando la hipótesis de utilidad esperada. Juego de piedra, papel o tijera: el equilibrio de Nash es para que juegues un dado 3 al azar. Lo que parece ser una nueva estrategia para este antiguo juego es que juegues rock si crees que tu oponente jugará papel con una probabilidad de 33% como máximo y tijeras con una probabilidad de al menos 33%; jugar papel si crees que tu oponente jugará unas tijeras con una probabilidad de 33% como máximo y una piedra con una probabilidad de al menos 33%; más para jugar tijeras. (Nuestro enfoque puede ayudarlo si, por ejemplo, tiene datos sobre las jugadas anteriores del juego de su oponente). El juego lleno de gente tiene amigos A, B y C de 3: cualquiera que vaya solo a la barra no obtiene nada: quedarse en casa es un Mejor opción. Si dos amigos van al bar, esa es la mejor opción. Si los tres se van, la barra tira a los tres. Los equilibrios de Nash son para que todos se queden en casa, o para que todos jueguen su primera estrategia con una probabilidad igual a 33%. Pero si tiene alguna idea de sus amigos y puede estimar las probabilidades bayesianas de su comportamiento, nuestra estrategia puede ayudarlo.

También ampliamos nuestro enfoque al juego M-person y obtenemos ideas similares. Por ejemplo, mostramos la solución completa para los juegos generales de 2-person y los juegos de estrategias generales de 3 persons x 2.

La hipótesis de utilidad esperada.

En un juego 2-Person, permita que los jugadores A y B tengan estrategias 2: A1 o A2 para el jugador A, y B1 o B2 para el jugador B.

La base para la teoría de la utilidad esperada es el teorema de la utilidad von Neumann - Morgenstern (von Neumann y Morgenstern [20]): deje que Aij y Bij sean los beneficios para los jugadores A y B respectivamente si el jugador A juega Ai y el jugador B juega Bj, para i , j = 1 o 2. La hipótesis de utilidad esperada establece que los jugadores A y B deben maximizar sus pagos esperados 1:

donde pA (Ai y Bj) es la probabilidad del jugador A de que A juegue Ai y B juegue Bj, y de manera similar para el jugador B.

Probabilidades condicionales .

Para nuestro enfoque, nosotros caer La suposición de Nash de que las probabilidades de los jugadores son mutuamente independientes. Esto permite que nuestro problema (1) sea más general y obtenga más soluciones que satisfagan la hipótesis de utilidad esperada.

Deje que EP (A | Ai) y EP (B | Bj) sean los pagos esperados , de A y B respectivamente dado que A juega Ai y B juega Bj, para i, j = 1, 2:

Comencemos probando un Teorema elemental "bayesiano" de juegos lo que demuestra la equivalencia de nuestro enfoque a la formulación de VNM:

Teorema 1 . Los problemas (3) a continuación son equivalentes a los problemas (1) :

Prueba. Por el teorema de Bayes,

Entonces,

El maximo de la ecuación anterior es pA (A1) = 1 (es decir, estrategia de juego A1) si EP (A | A1) ≥ EP (A | A2), o pA (A1) = 0 (es decir, estrategia de juego A2) si EP ( A | A1) EP (A | A2). Por lo tanto, (3) es válido para el jugador A. Un argumento similar es válido para el jugador BQED

Regiones VNM.

Defina las regiones VNM A1 y A2 para que sean los politopos convexos:

Como se muestra a continuación, A debería jugar la estrategia A1 si espera que B esté en la región A1. De lo contrario, A debería jugar A2. La linea de equilibrio

separa el espacio de probabilidad en las dos regiones y proporciona un medio visualmente útil para analizar la situación .

Importancia de las regiones: las dos regiones son importantes en la práctica, ya que ahora no es necesario estimar la probabilidad con precisión, sino solo determinar en cuál de las dos regiones se encuentra. Con frecuencia, se verá que la probabilidad anterior probablemente esté en una región , y la identificación de esa región es información suficiente para sugerir el juego apropiado del juego. Por ejemplo, suponga que la región A1 es considerablemente más grande que la otra, por lo que es muy probable que la región esté en esa región A1. Esto proporciona información convincente de que el jugador A probablemente jugará A1.

Análogamente para B:

Las regiones VNM dependen de las distribuciones de probabilidad previas de los jugadores, a menudo simplemente llamadas prioritarias (Jaynes [13]; Harsanyi [10]; Kadane y Larkey [11]), que son las expresiones de creencias de los jugadores sobre la distribución de probabilidad de su oponente

Corolario 2. Dado (3), A juega la estrategia A1 si y solo si espera que el jugador B esté en la región VNM A1. De lo contrario, A juega estrategia A2. Del mismo modo, B juega la estrategia B1 si y solo si espera que el jugador A esté en la región VNM B1. De lo contrario, B juega estrategia B2.

Prueba. EP (A | A1) ≥ EP (A | A2) si y solo si A11 pA (B1 | A1) + A12 pA (B2 | A1) ≥ A21 pA (B1 | A2) + A22 pA (B2 | A2) si y solo si (A11 - A12) pA (B1 | A1) + (A21 - A22) pA (B2 | A2) + A12 - A21 ≥ 0.

Del mismo modo, EP (B | B1) ≥ EP (B | B2) si y solo si B11 pB (A1 | B1) + B21 pB (A2 | B1) ≥ B12 pB (A1 | B2)

+ B22 pB (A2 | B2) si y solo si (B11 - B21) pB (A1 | B1) + (B12 - B22) pB (A2 | B2) + B21 - B12 ≥ 0. QED

Desde el teorema 1 y el corolario 2, para los puntos en las regiones (5) y (7), se cumple la hipótesis de utilidad esperada, es decir, las regiones VNM definen la solución general para el juego 2-Person .

Equilibrio de Nash.

Si las probabilidades de los jugadores son mutuamente independientes, las regiones VNM se simplifican para:

Proposición 3. Suponga que un equilibrio de Nash (p (A1), p (B1)) está en la región VNM Ai y la región VNM Bj respectivamente, para algunos i, j = 1, 2. Entonces, el jugador A jugará la estrategia Ai y el jugador B jugará la estrategia

Bj.

Prueba. El problema de equilibrio de Nash es el problema (1), donde pA (Ai y Bj) = pB (Ai y Bj) = p (Ai) p (Bj), o problema (3), donde pA (Bj | Ai) = p (Bj ) y pB (Ai | Bj) = p (Ai), para i, j = 1, 2. Por lo tanto, el Corolario 2 se mantiene, donde las regiones VNM están definidas por (8), para pA (B1) = p (B1) y pB (A1) = p (A1). QED

Recordemos que las ecuaciones de equilibrio

separe las regiones VNM, dando así la solución general a cualquier juego. Estas mismas ecuaciones de equilibrio, donde pB (A1) = p (A1) y pA (B1) = p (B1), producen el equilibrio mixto de Nash11, como se muestra en la tabla a continuación.

Proposición 4. Dado cualquier juego A = [[A11, A12], [A21, A22]] y B = [[B11, B12], [B21, B22]], los equilibrios de Nash para el juego se calculan a partir de la fila correspondiente de la Tabla 112.

Prueba. Observe que (i, j) es un equilibrio puro de Nash si y solo si sgn (2i - 1) * (A11 - A21)> 0 y sgn (2j - 1) * (B11 - B12)> 0, para i, j = 0, 1. Usando este hecho, para cada fila en la Tabla 1, enumeramos todos los pares (i, j) que son equilibrios puros de Nash.

Finalmente, para que el par (a, b) definido por (9) sea un equilibrio mixto de Nash, solo necesitamos mostrar que 0 <a <1 y 0 <b <1. Pero tenga en cuenta que para las filas 6, 7, 10 y 11 de la Tabla 1, el numerador y el denominador de a, 1 - a, b o 1 - b son positivos o ambos negativos; por lo tanto, a, 1 - a, b, 1 - b son todos mayores que 0. QED

Ejemplo de Dominio Iterado .

Deje A = [[2, 2], [3, 1]] y B = [[0, 1], [0, 2]]. "Jugar A1 y B2" es el equilibrio de Nash.

Proposición 5. Dado A = [[2, 2], [3, 1]] y B = [[0, 1], [0, 2]], el jugador A jugará A1 y el jugador B jugará B2.

Prueba. La región VNM A1 es: pA (B2 | A2) ≥ 1 / 2, y la región VNM B2 es: pB (A2 | B2) ≥ -1. Por lo tanto, el jugador B jugará B2. El jugador A también sabe que este es el caso, por lo tanto, pA (B2 | A2) = 1. Como pA (B2 | A2) = 1 es un punto en la región VNM A1, el jugador A juega A1. QED

Ejemplo de coordinación

Deje A = B = [[2, 0], [0, 1]]. Hay puntos de equilibrio 3 Nash: "jugar A1 y B1", "jugar A2 y B2" y "jugar A1 (o B1) con probabilidad 1 / 3". La región VNM A1 es: 2pA (B1 | A1) ≥ pA (B2 | A2) y la región VNM B1 es: 2pB (A1 | B1) ≥ pB (A2 | B2). Al analizar estas regiones VNM visualmente, A y B probablemente elegirán las estrategias A1 y B1 respectivamente.

Proposición 6. Dado A = B = [[2, 0], [0, 1]], si las probabilidades de los jugadores son independientes entre sí, entonces juega la primera estrategia si crees que la probabilidad del oponente de jugar su primera estrategia es al menos 1 / 3, de lo contrario juega la segunda estrategia.

Prueba. La región VNM A1 es: pA (B1) ≥ 1 / 3 y la región VNM B1 es: pB (A1) ≥ 1 / 3. QED

Batalla de los sexos Ejemplo.

Deje A = [[3, 1], [1, 2]] y B = [[2, 1], [1, 3]]. Hay puntos de equilibrio 3 Nash: "jugar A1 y B1", "jugar A2 y B2" y "jugar A1 con probabilidad 2 / 3, jugar B1 con probabilidad 1 / 3". La región VNM A1 es: 2pA (B1 | A1) ≥ pA (B2 | A2) y la región VNM B1 es: pB (A1 | B1) ≥ 2pB (A2 | B2). A preferiría elegir A1 y B preferiría elegir B2.

Proposición 7. Dado A = [[3, 1], [1, 2]] y B = [[2, 1], [1, 3]], si las probabilidades de los jugadores son mutuamente independientes, entonces: juega A1 si pA (B1 ) ≥ 1 / 3, de lo contrario jugar A2; reproducir B1 si pB (A1) ≥ 2 / 3, de lo contrario, jugar B2.

Prueba. La región VNM A1 es: pA (B1) ≥ 1 / 3 y la región VNM B1 es: pB (A1) ≥ 2 / 3. QED

Ejemplo de centavos a juego.

Deje A = [[1, -1], [-1, 1]] y B = [[-1, 1], [1, -1]]. Este juego de suma cero tiene un equilibrio mixto de Nash: "juega A1 con probabilidad 1 / 2, juega B1 con probabilidad 1 / 2".

Proposición 8. Dado A = [[1, -1], [-1, 1]] y B = [[-1, 1], [1, -1]], si las probabilidades de los jugadores son mutuamente independientes, entonces: juega A1 si pA (B1) ≥ 1 / 2, de lo contrario, juegue A2; jugar B1 si pB (A1) 1 / 2, de lo contrario jugar B2 .

Prueba. La región VNM A1 es: pA (B1) ≥ 1 / 2 y la región VNM B1 es: pB (A1) 1 / 2. QED

Ejemplo de juego de pollo (Sugden [19]).

Deje A = [[0, -1], [1, -10]] y B = [[0, 1], [-1, -10]]. Los equilibrios de Nash son "jugar A1 (desviarse) y B2 (ir derecho)", jugar A2 (ir derecho) y B1 (desviarse) "y" jugar A1 (B1) con probabilidad 0.9 ".

Proposición 9. En el juego del pollo, si las probabilidades de los jugadores son mutuamente independientes, entonces: desvía si crees que el oponente desviará con una probabilidad de 90 como máximo, de lo contrario, sigue recto.

Prueba. La región VNM A1 es: pA (B1) + 11pA (B2) ≥ 2, o pA (B1) ≤ 9 / 10. De manera similar, la región VNM B1 es: pB (A1) ≤ 9 / 10. QED

Observe que si su oponente muestra demasiado entusiasmo (al menos 90%) para desviarse, entonces debe ir en línea recta.

Escenario preferido: los jugadores tienen más probabilidades de desviarse que ir en línea recta.

Escenario de pollo: suponga que pA (B1) = pB (A1) = 0. Ambos jugadores esperan que el otro jugador siga derecho. Ambos se desviarán.

Escenario de catástrofe: supongamos que pA (B1) = pB (A1) = 1. Ambos jugadores esperan que el otro jugador se desvíe. Ambos irán en línea recta .

Escenario de equilibrio de Nash: suponga que pA (B1) = 1 - pB (A1) y pB (A1) = 0 o 1. El jugador que espera que el otro jugador vaya derecho, se desviará, y el jugador que espera que el otro jugador se desplace derecho.

Ejemplo de carrera armamentista.

En la Proposición 9, deje A = [[0, -x], [1, -10x]], B = [[0, 1], [-y, -10y]], para x, y ≥ 0. Que A1 o B1 sean "buscar la paz" y A2 o B2 sean "ataques nucleares". Los valores x e y denotan el arsenal de armas de B y A, respectivamente.

El país A busca la paz si la probabilidad de que el país B ataque sea mayor que 1 / (9x + 1); de lo contrario A ataca. La curva de probabilidad pA (B1) = 1 / (9x + 1) cae rápidamente, por ejemplo, pA (B1) = 1 / 2 en x = 1 / 9, pero pronto se aplana drásticamente: B debe apilarse rápidamente inicialmente, pero a medida que la curva aplana, habrá poco beneficio para B para el almacenamiento de armas.

Y de manera similar para el país B.

En resumen, cada país inicialmente almacena armas para que no sea atacado. Pero se materializan los rendimientos decrecientes de las existencias de armas, lo que abre una oportunidad para buscar un tratado de paz.

Como ilustración, considere la reserva nuclear global estimada de 2018 de la tabla 2.

Basado en los pagos anteriores y en la Tabla 2, un Corea del Norte racional debería buscar un tratado de paz con los Estados Unidos y Rusia.

Skyrms [16]).

Deje A = [[4, 1], [3, 2]] y B = [[4, 3], [1, 2]]. Los equilibrios de Nash son "jugar A1 (Stag) y B1 (Stag)", "jugar A2 (Hare) y B2 (Hare)" y "jugar A1 (B1) con probabilidad 0.5".

Proposición 10. En la caza del ciervo, si las probabilidades de los jugadores son mutuamente independientes, entonces: caza el ciervo si crees que el oponente cazará el ciervo con una probabilidad de al menos 50%, de lo contrario, caza liebre.

Prueba. La región VNM A1 es: 3pA (B1) + pA (B2) ≥ 2, o pA (B1) ≥ 1 / 2. De manera similar, la región VNM B1 es: pB (A1) ≥ 1 / 2. QED

El dilema del prisionero .

Deje que A12 <A22 <A11 <A21, y deje que B sea igual a la transposición de A. Desde A11 <A21 y A12 <A22, el uso del principio de dominancia produce el equilibrio de Nash, es decir, la solución no cooperativa "jugar A2 (defecto) y B2 (defecto) ". Pero como A22 <A11, A y B están mejor si ambos juegan la solución cooperativa "jugar A1 (silencio) y B1 (silencio)".

Proposición 11. En el dilema del prisionero, si las probabilidades de los jugadores son mutuamente independientes, entonces los jugadores juegan de manera no cooperativa. .

Prueba. Considere el lado izquierdo de la región VNM A1:

(A11 - A12 - A21 + A22) pA(B1) + A12 - A22.

Si A11 - A12 - A21 + A22 ≤ 0, entonces (A11 - A12 - A21 + A22) pA(B1) + A12 - A22 ≤ A12 - A22 <0. Por otro lado, si A11 - A12 - A21 + A22> 0, entonces (A11 - A12 - A21 + A22) pA(B1) + A12 - A22 ≤ (A11 - A12 - A21 + A22) + A12 - A22 = A11 - A21 <0. Por lo tanto, para cualquier previo para el jugador A, la región VNM A1 es el conjunto nulo, por lo tanto, debe jugar la estrategia 2.

Del mismo modo, el jugador B debe jugar la estrategia 2. QED

La Proposición 11 muestra claramente que el supuesto de independencia nos restringe a la solución no cooperativa.

Ejemplo del dilema del prisionero clásico.

En el dilema del prisionero clásico, A = [[-1, -3], [0, -2]] y B = [[-1, 0], [-3, -2]].

Proposición 12. En el dilema del prisionero clásico, si los antecedentes de los jugadores son: pA (B1 | A1) + pA (B2 | A2) ≥ 3 / 2, pB (A1 | B1) + pB (A2 | B2) ≥ 3 / 2 / 19 / XNUMX / XNUMX / X los jugadores jugarán la solución cooperativa XNUMX.

Prueba. La región VNM A1 es: pA (B1 | A1) + pA (B2 | A2) ≥ 3 / 2, y la región VNM B1 es: pB (A1 | B1) + pB (A2 | 2). Por lo tanto, para los previos dados, los jugadores A y B deben jugar la solución cooperativa. QED

En la Proposición 12, tenga en cuenta la barra alta requerida para jugar la solución cooperativa. Los jugadores prefieren elegir jugar la solución no cooperativa.

Una instancia en la que el enfoque de Nash no puede considerar jugar la estrategia cooperativa.

Considere el dilema del prisionero donde A11 - A12 = A21 - A22, A21 = A11 + my A22 = A11 - M, donde m> 0 es pequeño y M> 0 es muy grande. Por ejemplo, A = [[100, -3], [101, -2]]. Recuerde de la Proposición 11 que si las probabilidades de los jugadores son mutuamente independientes, los jugadores jugarán de manera no cooperativa.

Evidentemente, sería una tontería para los jugadores ni siquiera considerar jugar la estrategia 1 ya que si un jugador juega 2, la posibilidad de que el otro jugador también juegue 2 produciría una pérdida significativa, entonces, ¿por qué arriesgarse? Claramente, el enfoque de Nash no considera jugar la solución cooperativa, incluso cuando es la solución obvia para jugar, un punto muy importante, por ejemplo, las discusiones sobre las fallas del mercado en los modelos de equilibrio económico general.

Por otro lado, como lo muestra la proposición siguiente, al abandonar el supuesto de independencia, nuestro enfoque jugará la solución cooperativa en lugar de la solución no cooperativa.

La línea negra es la línea de indiferencia para el dilema del prisionero clásico. Es más probable que un jugador juegue la estrategia 2 debido a la improbable probabilidad de estar en la región para jugar la estrategia

1.

La línea verde es la línea de indiferencia para este caso del dilema del prisionero: pA (B1 | A1) + pA (B2 | A2) = 1 + m / (M + m). Aquí, el tamaño de la región de probabilidad para la estrategia 1 es casi la de la estrategia 2. Nuestro enfoque es aconsejar a los jugadores que consideren jugar la estrategia 1.

Proposición 13. Dado el dilema del prisionero donde A11 - A12 = A21 - A22, A21 = A11 + my A22 = A11 - M, donde m> 0 es pequeño y M> 0 es muy grande, los jugadores A y B jugarán la solución cooperativa 20.

  • Por lo tanto, los jugadores no jugarán la solución no cooperativa.
  • Actualmente, para alcanzar la solución cooperativa, se agregan suposiciones, por ejemplo, racionalidad limitada, información incompleta (Aumann y Maschler [2]; Acevedo y Krueger [4]; Daley Dadas las probabilidades conjuntas esperadas de A pA (Ai y Bj), A concluye que pA (A1 y B1) debe estar cerca de 1, porque es probable que A y B jueguen con la estrategia 1, donde sus ganancias son bastante altas y solo m unidades menos que el máximo.

Por lo tanto, pA (B1 | A1) = pA (A1 y B1) / pA (A1) también debe estar cerca de 1.

A también concluye que pA (A2 y B2) pA (A2 y B1) ya que B es más probable que juegue la estrategia 2 si A está jugando la estrategia 2. Por lo tanto, pA (B2 | A2) = pA (A2 y B2) / (pA (A2 y B1) + pA (A2 y B2)) 1 / 2. A concluye, usando la Fig. 1, que B está suficientemente dentro de la región VNM A1. Del mismo modo, B jugará la estrategia 1. QED

La paradoja de Newcomb como una versión del dilema del prisionero.

En la famosa paradoja de Newcomb (Wolpert y Benford [21]), hay un predictor B, un jugador A y una casilla X. El jugador A tiene la opción de elegir la casilla X o la casilla X más $ 1,000. Antes de que A haga su selección, B predice lo que hará A, y las predicciones de B son casi ciertas. Si B predice que A solo tomará la casilla X, entonces B pone $ 1,000,000 en la casilla X. En este caso, como la caja tiene $ 1,000,000, A recibirá $ 1,000,000 o $ 1,001,000 dependiendo de si A elige la casilla X o X más $ 1,000. Por otro lado, si B predice que A tomará la casilla X más $ 1,000, entonces B no coloca nada en la casilla X. En este caso, según su elección, A recibe $ 1,000 o nada.

La paradoja de Newcomb es que dos análisis perfectamente racionales dan respuestas contradictorias al problema de optimización del jugador A: según la hipótesis de utilidad esperada, el jugador A debería tomar solo la casilla X, ya que el beneficio esperado de tomar X es mucho mayor. Por otro lado, bajo el principio de dominio, el jugador A debe tomar la casilla X más $ 1,000.

La paradoja se entiende mejor con un pasaje en (Wolpert y Benford [21]): “… Newcomb dijo que simplemente tomaría X; ¿Por qué luchar contra un ser divino? Sin embargo, Nozick dijo: 'Para casi todos, es perfectamente claro y obvio lo que debe hacerse. La dificultad es que estas personas parecen dividirse casi por igual en el problema, y ​​un gran número piensa que la mitad opuesta simplemente está siendo tonta. '... ”.

Wolpert y Benford resuelven la paradoja al mostrar que el problema de Newcomb en realidad representa dos juegos diferentes con diferentes resultados probabilísticos.

En esta sección, resolveremos la paradoja presentando el problema de Newcomb como un dilema del prisionero. Al hacerlo, se puede llegar a la solución del problema de Newcomb de dos maneras: como la solución no cooperativa (tome la casilla X más $ 1,000) usando el principio de dominación, o como la solución cooperativa (tome solo la casilla X) usando el esperado hipótesis de utilidad

Supongamos que hay un rico benefactor que promete financiar una matriz de pagos para el predictor B, produciendo el siguiente juego: A = [[$ 1,000,000, 0], [$ 1,001,000, $ 1,000]] y B = [[$ $ NNUMX, $ 1,000,000 ], [1,001,000, $ 0]].

Si B predice correctamente, B obtiene lo que el jugador A obtiene. Pero si B predice mal, B obtiene $ 1,001,000 menos lo que A obtiene 21.

Desde la Proposición 13, los jugadores A y B jugarán cooperativamente en este juego.

Si, como Nash, el jugador resuelve el problema utilizando el principio de dominio, también lo hace el predictor. Tanto el predictor como el jugador estarán en la solución no cooperativa: tome X más $ 1,000. Si el jugador resuelve el problema utilizando la hipótesis de utilidad esperada, también lo hace el predictor, y tanto el predictor como el jugador estarán en la solución cooperativa: tome solo X. En cualquier caso, la predicción del predictor es

y Sadowski [6]) o se describen nuevos métodos, por ejemplo, equilibrio correlacionado de ojo por ojo (Axelrod [3]; Aumann [1]).

21 Tenga en cuenta que al plantear el problema de Newcomb como un problema de EP, el predictor recibe un incentivo personal que está ausente en el problema de Newcomb.

cierto. Dado que desde la Proposición 13, los jugadores no jugarán la solución no cooperativa, estamos de acuerdo con Newcomb en que la cooperación es la estrategia obvia a seguir.

Tenga en cuenta en la Fig. 1, sin embargo, la región para la cooperación es insignificantemente menor que la de la no cooperación. Entonces no es sorprendente para nosotros si las personas se dividen equitativamente sobre qué estrategia tomar.

Una generalización del dilema del prisionero a M-personas.

Para comprender mejor cómo la solución de Nash podría romperse en los modelos de equilibrio económico general, generalicemos el dilema del prisionero a M-persons, con cada jugador teniendo estrategias 2, para M 2.

Describamos el juego M-Person a través de árboles binarios.

La figura 2 es la recompensa del dilema del prisionero para el jugador A. El árbol (2, 1) es el árbol binario con el jugador B (jugador 2) como padre y el jugador A (jugador 1) como niño. Para obtener el beneficio para el jugador B, simplemente cambie los roles de padre e hijo a Árbol (1, 2). Recordemos que para el dilema del prisionero, A12 <A22 <A11 <A21.

Luego, supongamos que el árbol (M - 1, M - 2,…, 2, 1) denota la recompensa del jugador A por un juego (M - 1) -Person, para M 3 Construya el árbol de pagos del jugador A (M, M - 1, ..., 2, 1) para un juego de M-Person dejando que el árbol del jugador A (M - 1, M - 2, ..., 2, 1) sean los árboles secundarios en ambos ramas del jugador padre M.

Se supone que los valores numéricos de la recompensa en el subárbol derecho son diferentes de los del subárbol izquierdo, siempre que la relación A12 <A22 <A11 <A21 se mantenga en todas partes del árbol.

Finalmente, dado Tree (M, M - 1, ..., 2, 1) para el jugador A, crear Tree (1, M, M - 1, ..., 3, 2) para el jugador B (jugador 2) haciendo que 1 sea el más alto padre; Árbol (1, 2, M, M - 1, ..., 4, 3) para el jugador 3 al hacer que 2 sea el segundo padre más alto, ..., Árbol (1, 2, 3, ..., M - 2, M, M - 1 ) para el jugador M - 1 al hacer que M - 2 sea el tercer hijo más bajo, Tree (1, 2, 3, ..., M - 1, M) para el jugador M al hacer que M - 1 sea el segundo hijo más bajo.

Esto completa la descripción de los pagos de los jugadores para el juego de dilema del prisionero M-Person, con cada jugador teniendo estrategias 2.

Teorema 14. Para el dilema del prisionero M-Person, M 2, utilizando el principio de dominio, la solución de Nash es que los jugadores jueguen la estrategia 2.

Prueba. Ya sabemos que el teorema es válido para M = 2. Suponga por inducción que el teorema es válido para M - 1, para M 3 Demostremos que el teorema es válido para M.

Dado el árbol (M, M - 1, ..., 2, 1) para el jugador A, recuerde que por construcción, los subárboles en las ramas izquierda y derecha tienen la forma de árbol (M - 1, M - 2, ..., 2 , 1) para el jugador 1, Tree (M, M - 1, ..., 2) para el jugador 2, Tree (2, M, M - 1, ..., 4, 3) para el jugador 3, ..., Tree (2, ... , M - 2, M, M - 1) para el jugador M - 1. Estos subárboles son idénticos para los jugadores 1, 2, ..., M - 1, excepto por el etiquetado en los nodos de los padres. Tenga en cuenta que la estrategia 2 de cada jugador domina su estrategia 1 bajo cualquier condición. Por inducción, utilizando el principio de dominio, los jugadores 1 a M - 1 jugarán la estrategia 2.

Por lo tanto, dado el Árbol (1, 2, ..., M - 1, M) para el jugador M, si M juega 1, la recompensa para el jugador M es b (el segundo nodo más a la derecha del árbol) mientras que si M juega 2, el pago para el jugador M es A22 (el nodo más a la derecha del árbol). Por el principio de dominio, desde A12 <A22, el jugador M también jugará la estrategia 2. QED

Ahora suponga que cualquier pago del tipo A11 es mucho mayor que cualquier pago del tipo A22; y que A21 = A11 + m, donde los pagos A11 y A21 están en nodos adyacentes.

Claramente, el enfoque de Nash no considera jugar la solución cooperativa “estrategia de juego 1” incluso cuando es la solución obvia para jugar.

Siguiendo el argumento inductivo del Teorema 14, también podemos concluir que, dado que los subárboles en las ramas izquierda y derecha tienen la forma Árbol (M - 1, M - 2, ..., 2, 1) para el jugador 1, Tree ( M - 1, M - 2,…, 2) para el jugador 2, Tree (2, M, M - 1,…, 4, 3) para el jugador 3,…, Tree (2,…, M - 2, M, M - 1) para el jugador M - 1, por inducción, utilizando la hipótesis de utilidad esperada, los jugadores 1 a M - 1 jugarán la estrategia 1 donde la recompensa es del tipo A11.

Por lo tanto, dado el Árbol (1, 2,…, M - 1, M) para el jugador M, si M juega 1, la recompensa para el jugador M es a (el nodo más a la izquierda del árbol) mientras que si M juega 2, el pago para el jugador M es A21 = A11 + m (el segundo nodo más a la izquierda del árbol). Desde A11 <A21, el jugador M puede verse tentado a jugar la estrategia 2. Pero, ¿por qué arriesgarse a jugar la estrategia 2 para m unidades más que A11, cuando podría dar lugar a un pago del tipo A22, un pago significativamente menor que A11?

Según la hipótesis de la utilidad esperada, el jugador M también debe jugar la estrategia 1.

Juegos generales de M-person.

Finalmente, generalizamos el Teorema 1 para juegos generales de M-person.

Deje que haya M jugadores, donde cada jugador i tiene ni posibles estrategias para cada i = 1, 2, ..., M. Dado el vector de estrategia (j1, j2, ..., jM), deje que la recompensa para el jugador i sea Aij1j2 ... jM. Sea xi una estrategia mixta para el jugador i, es decir, una estrategia xi donde Σj xij = 1, xij 0, all j, y let x = (xi, xi) denotan las estrategias de todos los jugadores. El problema de Nash es:

donde EP (i | xi) es la recompensa esperada para el jugador que le di xi y donde la suma es sobre todo jk y todo k.

Una estrategia x * es un equilibrio de Nash si xi * es una solución al problema del jugador i anterior, dado xi *.

Para nuestro enfoque, dejemos que pij1, j2, ..., jM ser el jugador i la probabilidad esperada de que el jugador k juegue jk, para todos jk y todos k. La teoría de la utilidad esperada de Von Neumann – Morgenstern dice que el objetivo del jugador i es maximizar su rentabilidad esperada:

donde la suma es sobre todo jk y todo k.

Definir

donde -i juega j-i significa que el jugador k juega jk y donde la suma es sobre todo jk, para todo k i.

Teorema 15. Los problemas (13) a continuación son equivalentes a los problemas (11):

Prueba.. Por definición,

donde la suma es sobre todo rk, para cualquier k i.

El denominador de (14) es la probabilidad pi (i juega ji). Por lo tanto,

Desde que Σ pi (juego ji) = 1 y pi (juego ji) 0 para todos los ji, se deduce que el jugador i juega estrategia [arg maxji EP (i | i juega ji)]. QED

Un método para encontrar la mejor estrategia para el jugador i es el siguiente: para cualquier par de estrategias para el jugador i, digamos estrategia r y estrategia s, calcule el lugar geométrico de los puntos donde los pagos esperados condicionales en el jugador i jugando r o s son iguales . Esto define una superficie de indiferencia que divide el espacio de probabilidad condicional en regiones 2 VNM. Una región VNM está etiquetada r porque la estrategia de elección es r, y la otra región VNM está etiquetada s porque la estrategia de elección es s.

Después de los cálculos anteriores, cada región VNM habrá sido etiquetada tantas veces como haya distintos pares de estrategias. Para cualquier región VNM dada, tome cualquiera de las dos etiquetas múltiples y elimine una de ellas en función de la superficie de indiferencia creada por este par de etiquetas. El proceso finaliza cuando cada región VNM tiene solo una etiqueta.

Juegos generales de 2-person.

Deje que el jugador A tenga estrategias Ai, i = 1, 2, ... n1 y el jugador B tenga estrategias Bj, j = 1, 2, ... n2. Suponga que las probabilidades de los jugadores son mutuamente independientes. El problema (13) es:

Por lo tanto, las regiones VNM están definidas por politopos convexos:

Como se puede observar en (16), encontrar la solución establecida para un juego general de 2-persona es sencillo. Por ejemplo, considere el juego Rock-Paper-Scissors de más de dos mil años de antigüedad, donde el equilibrio de Nash es: juegue cualquier estrategia con 33% de probabilidad:

La estrategia A1 o B1 (piedra) pierde con la estrategia A2 o B2 (papel) pierde con la estrategia A3 o B3 (tijera) pierde con la roca.

Para el jugador A, en general tenemos, donde 0 pA (Bj) 1,

que se reduce a

Y de manera similar para el jugador B.

Lo que parece ser una nueva estrategia para este antiguo juego es: jugar al rock si crees que tu oponente jugará papel con una probabilidad de 33% como máximo y tijeras con una probabilidad de al menos 33%; juega papel si crees que tu oponente jugará tijeras con una probabilidad de 33% como máximo y rockea con una probabilidad de al menos 33%; de lo contrario, juegue tijeras 22.

Juegos de 3-person donde cada persona tiene estrategias de 2.

Apliquemos el Teorema 15 para encontrar la solución establecida para un juego 3-persona, donde cada jugador A, B y C tiene estrategias 2 Ai, Bi, Ci, para i = 1, 2 respectivamente.

Suponga que las probabilidades de los jugadores son mutuamente independientes. Para el jugador A, la ecuación (13) es

y de manera similar para los jugadores B y C. Usando el Teorema 15, la solución se define por:

Usemos lo anterior para el juego Bar-crowding :

Si el jugador está en casa, su recompensa es 1; si el jugador está solo en el bar, su recompensa es 0; si el jugador está en el bar con otra persona, su recompensa es 2; de lo contrario, su recompensa es -1.

Tenemos: A111 - A211 = -2, A112 - A212 = A121 - A221 = 1, A122 - A222 = -1, por lo tanto VNM región A1 es la región -3pA (B1) pA (C1) + 2pA (B1) + 2pA (C1) - 1 ≥ 0, o equivalentemente la región pA (B1) ≥ (1 - 2pA (C1)) / (2 - 3pA (C1)). De forma similar, la región VNM B1 es la región pB (A1) ≥ (1 - 2pB (C1)) / (2 - 3pB (C1)) y la región VNM C1 es la región pC (B1) ≥ (1 - XNXX) / (2 - 1pC (A2)). Los equilibrios de Nash son p (A) = p (B) = p (C) = 3 y p (A) = p (B) = p (C) = 1 / 1.

Reconocimiento.

Nos gustaría agradecer a Al Roth y Todd Davies por sus invaluables consejos y orientación en la preparación de este documento.

Notas a pie de página

[1] Por simplicidad, hacemos la suposición común de que la utilidad es una función lineal de la recompensa (Starmer [18]). Por lo tanto, maximizar la utilidad esperada es lo mismo que maximizar la rentabilidad esperada.

[2] Nuestro enfoque bayesiano para juegos difiere del trabajo bayesiano previo (por ejemplo, Acevedo y Krueger [4]; Aumann [1]; Daley y Sadowski [6]; McKelvey y Palfrey [12]; Quattrone y Tversky [15]) en eso, a diferencia de los otros enfoques, nuestro enfoque vincula las probabilidades condicionales inequívocamente a la hipótesis de utilidad esperada, que nuestra solución siempre satisface.

[3] Un crítico afirma que "los jugadores racionales no tienen ni deberían tener en cuenta las probabilidades condicionales ... Imaginemos a un agente que sabe que la probabilidad de lluvia es p. Su 'solución' parece ser que el agente debe llevar un paraguas con él si llueve y dejar el paraguas si no llueve ”.
El teorema 1 muestra que la crítica anterior es injustificada. Con respecto a la última crítica, deje que EP (agente | traiga un paraguas) = ​​p, y EP (agente | no traiga un paraguas) = ​​1 - p. Nuestra solución sería: traer un paraguas si p ≥ 1 / 2; no traiga un paraguas si p ≤ 1 / 2.

[4] Las probabilidades condicionales de (2) no violan el principio en Spohn [17]: "Cualquier modelo de decisión cuantitativa adecuado no debe contener explícita ni implícitamente ninguna probabilidad subjetiva de actos ..." Las probabilidades condicionales de un jugador son probabilidades subjetivas para el oponente estrategias, no por sus propias estrategias.

[5] Este teorema se generalizará a uno para juegos de M-person.

[6] No hay señalización entre los jugadores.

[7] Las variables independientes pA (B1 | A1) y pA (B2 | A2) se suponen dadas en el problema de maximización, una simplificación que evita el problema de la regresión infinita (similar a la suposición de Nash de que p (B1) se da para el jugador A en la formulación de su problema de maximización).

[8] La desigualdad (5) es la solución (descubierta) al problema (1) de la misma manera que la fórmula cuadrática es la solución a una ecuación cuadrática general.

[9] Los antecedentes del jugador pueden depender de eventos aleatorios parcialmente observables, como el clima. Para el uso de anteriores en juegos con información incompleta jugada por jugadores bayesianos, consulte (Harsanyi [10]).

[10] Esta solución general contiene los equilibrios de Nash como soluciones particulares. En contraste con las soluciones descriptivas de Nash, nuestra solución es un par de estrategias puras de expectativas racionales prescriptivas. Además, si por error, el jugador A está en la región VNM A1 y juega A2, el Corolario 2 establece que el jugador A obtendrá un pago esperado menor.

[11] Es interesante notar que en un equilibrio mixto de Nash, la estrategia de un jugador depende de conocer la función de pago del otro jugador.

[12] Los signos cero se ignoran en la tabla, ya que estos casos son degenerados: un jugador no puede elegir entre sus dos estrategias. Además, es interesante observar que cada equilibrio de Nash aparece exactamente en cuatro filas.

[13] Los siguientes ejemplos de 3 están adaptados de (Davies [7]) de una manera que podría servir como una técnica pedagógica para los estudiantes de teoría de juegos. La tabla 1 puede usarse para encontrar rápidamente los equilibrios de Nash para todos los ejemplos de juegos de 2-persona descritos aquí.

[14] Las acciones de A no afectan la elección de acciones de B. Esto se debe a que las creencias de A no están correlacionadas con las creencias de B. Por otro lado, si las creencias están correlacionadas, las probabilidades de ambos jugadores deben ser iguales a 50%, de lo contrario, si las probabilidades de los jugadores son ambas> 50%, A sabe que B jugará la estrategia 2 (colas), por lo tanto, jugará la estrategia 1 (cabezas) no puede ser una receta correcta para A. Si, por ejemplo, la probabilidad de A es> 50% y la probabilidad de B es <50%, B sabe que A jugará cara, por lo tanto, jugar cara no puede ser una receta correcta para A. Etc. Por lo tanto, la solución única es el equilibrio de Nash: jugar al azar para ambos.

[15] Tenga en cuenta que pA (B1) = pB (A1) = 0 o 1 es un escenario de equilibrio: ambos jugadores giran (o ambos van derecho) si ambos jugadores esperan que el otro jugador vaya derecho (o se desvíe). En contraste, p (A1) = p (B1) = 0 o 1 no puede ser un equilibrio de Nash: si B va derecho (o se desvía), A se desviará (o irá derecho).

[16] Fuentes: Asociación de Control de Armas, Federación de Científicos Estadounidenses, Panel Internacional de Materiales Fisibles, Departamento de Defensa de los Estados Unidos, Departamento de Estado de los Estados Unidos e Instituto Internacional de Investigación de la Paz de Estocolmo.

[17] Desde el artículo original de Flood y Dresher, se han publicado miles de artículos al respecto. La búsqueda de Google Scholar del "dilema del prisionero" arroja resultados 104,000 a partir de este escrito. Por favor consulte (Kuhn [14]).

[18] Por lo tanto, los jugadores no jugarán la solución cooperativa.

[19] Si tu oponente juega de manera no aleatoria, tu anterior puede verse influenciado por las jugadas anteriores de este juego.

[20] La fórmula se puede extender a M-persons, para M> 3.

[21] Este juego está basado en el problema de la barra de El Farol (Arthur [5]).

[22] El lugar de indiferencia es una curva cuadrática que pasa por los puntos (pA (C1), pA (B1)) = (0.5, 0), (0.33, 0.33), (0, 0.5).

Referencias

[1] Subjetividad y correlación de Aumann RJ (1974) en estrategias aleatorizadas. Revista de Economía Matemática 1: 67-96

[2] Aumann RJ, Maschler M (1995) Juegos repetidos con información incompleta. MIT Press, Cambridge Londres

[3] Axelrod R (1984) La evolución de la cooperación. Libros básicos

[4] Acevedo M, Krueger JI (2005) Razonamiento evidencial en el dilema del prisionero. The American Journal of Psychology 118: 431-457

[5] Arthur WB (1994) Razonamiento inductivo y racionalidad limitada. American Economic Review 84: 406-411

[6] Daley B, Sadowski P (2017) Pensamiento mágico: un resultado de representación. Economía teórica 12: 909-956 24 Este juego se basa en el problema de la barra de El Farol (Arthur [5]). 25 El lugar de indiferencia es una curva cuadrática que pasa por los puntos (pA (C1), pA (B1)) = (0.5, 0), (0.33, 0.33), (0, 0.5).

[7] Teoría de la utilidad Davies T (2004) y teoría del juego. Notas de lectura

[8] García CB, Zangwill WI (2017) Un nuevo enfoque para la guerra o la paz. Hoja de trabajo

[9] García CB, Zangwill WI (2018) Dominio, Utilidad esperada y el dilema del prisionero. Hoja de trabajo

[10] Juegos Harsanyi J (1967) con información incompleta que juegan los jugadores "bayesianos" I - III. J. Ciencias de la gestión 14 (3): 159-182

[11] Kadane JB, Larkey PD (1982) Probabilidad subjetiva y la teoría de los juegos. Ciencias de gestión 28 (2): 113-120

[12] McKelvey RD, Palfrey TR (1995) Equilibrios de respuesta cuántica para juegos de forma normal. Juegos y comportamiento económico 10: 6-38

[13] Jaynes ET (1968) Probabilidades anteriores. Transacciones IEEE sobre ciencia de sistemas y cibernética 4 (3): 227-241

[14] Kuhn S (2017) Dilema del prisionero. La enciclopedia de filosofía de Stanford

[15] Quattrone GA, Tversky A (1984) Causal versus diagnóstico de contingencias: en el autoengaño y en la ilusión del votante. Revista de Personalidad y Psicología Social 46: 237-248

[16] Skyrms B (2004) La caza del ciervo y la evolución de la estructura social. Cambridge University Press, Cambridge

[17] Spohn W (1977) Donde Luce y Krantz realmente generalizan el modelo de decisión de Savage. Erkenntnis 11: 113-134

[18] Starmer C (2000) Desarrollos en la teoría de utilidad no esperada: la búsqueda de una teoría descriptiva de elección bajo riesgo. Revista de Literatura Económica 38: 332-382

[19] Sugden R (2005) La economía de los derechos, la cooperación y el bienestar. Palgrave MacMillan, edición 2: 132

[20] Von Neumann J, Morgenstern O (1953) Teoría de juegos y comportamiento económico. Princeton University Press, Nueva Jersey

[21] Wolpert DH, Benford G (2011) La lección de la paradoja de Newcomb. Synthese 190: 1637-164