Kowalski, R. (2011) La lógica computacional y el pensamiento humano: cómo ser artificialmente inteligente

El Dilema del Prisionero

Imagine que, en su desesperación por enriquecerse tan rápido como sea posible, Ud considera varias alternativas, infiere sus consecuencias más probables y decide que la mejor es asaltar el banco más cercano. Persuade Ud a su mejor amigo, Keith, conocido por su meticulosidad y atención a los detalles, de que le ayude a planear y ejecutar el crimen. Gracias al esfuerzo coordinado, ambos tienen éxito en entrar al Banco durante la noche, abrir la bóveda y huir con un buen millón de libras esterlinas (1.65 millones de dólares al momento de escribir esto) como botín que guardan en el compartimiento de las maletas de su vehículo.

Desafortunamente, tanto tiempo en la pobreza se reflejan en el estado de ese vehículo y Ud es detenido por la policía que le reclama conducir de noche sin uno de los faros. Al revisar su vehículo, los policias descubren el buen millón en la cajuela. Ud se declara ignorante del origen del dinero, pero tanto Ud como su amigo son arrestados como sospechosos de un robo.

Sin testigos y sin confesión alguna, la policia no puede condenarlos salvo por poseer propiedad robada, que apenas implica una pena de 1 año. Sin embargo, si alguno confiesa el crimen (en detrimento del otro) y el otro no confiesa, el primero obtiene la libertad plena y el segundo es condenado a 6 años de cárcel. Si ambos confiesan, entonces ambos compartirán la pena de 3 años de cárcel.

Este es un ejemplo con el clásico Dilema del Prisionero. En teoría de Juegos, el problema de decidir entre esas alternativas de acción se presenta frecuentemente como una tabla, en la que las filas y columnas representan las acciones de los agentes y las celdas representan los resultados esperados. En este caso, la tabla es así:

	Ud confiesa	Ud no confiesa
Keith confiesa	Ud se gana 3 años de cárcel Keith se gana 3 años de cárcel	Ud se gana 6 años de cárcel Keith se gana 0 años de cárcel
Su amigo no confiesa	Ud se gana 0 años de cárcel Keith se gana 6 años de cárcel	Ud se gana 1 año de cárcel Keith se gana 1 año de cárcel

Ud confiesa

Ud no confiesa

Keith confiesa

Ud se gana 3 años de cárcel

Keith se gana 3 años de cárcel

Ud se gana 6 años de cárcel

Keith se gana 0 años de cárcel

Su amigo no confiesa

Ud se gana 0 años de cárcel

Keith se gana 6 años de cárcel

Ud se gana 1 año de cárcel

Keith se gana 1 año de cárcel

Si los dos prisioneros pudieran consultarse, se pondrían, obviamente (??) de acuerdo de que la mejor opción para ambos es no confesar y evitar perjudicar al otro. Para evitar esto, la policía los separa antes de que puedan hablarse. Así que cada uno debe decidir que hacer sin saber lo que el otro hará.

La Lógica del Dilema del Prisionero.

El Dilema del Prisionero tiene una representación natural en términos de las metas y creencias del Prisionero.

Meta: Si me arrestan entonces confieso o no confieso.

Creencias:

Me arrestan.

Un prisionero es condenado a 0 años de cárcel

si el prisionero confiesa

y el otro prisionero no confiesa.

Un prisionero es condenado a 6 años de cárcel

si el prisionero no confiesa

y el otro prisionero confiesa

Un prisionero es condenado a 3 años de cárcel

si el prisionero confiesa

y el otro prisionero también confiesa.

Un prisionero es condenado a 1 año de cárcel

si el prisionero no confiesa

y el otro prisionero tampoco confiesa.

En todo se asume, desde luego, que los prisioneros creen lo que les dice la policía. También se asume que ambos prisioneros saben que el mismo trato le ha sido ofrecido al otro prisionero. Sin embargo, el análisis que hacemos al final de este capítulo puede ser fácilmente modificado para cubrir otros casos.

La Lógica de los Juegos.

En general, cualquier juego de dos que se represente con una tabla puede también ser representado con metas y creencias. Por ejemplo, la tabla:

	Primer jugador hace A	Primer jugador hace B
Segundo jugador hace C	Primer jugador se gana AC Segundo jugador se gana CA	Primer jugador se gana BC Segundo jugador se gana CB
Segundo jugador hace D	Primer jugador se gana AD Segundo jugador se gana DA	Primer jugador se gana BD Segundo jugador se gana DB

Primer jugador hace A

Primer jugador hace B

Segundo jugador hace C

Primer jugador se gana AC

Segundo jugador se gana CA

Primer jugador se gana BC

Segundo jugador se gana CB

Segundo jugador hace D

Primer jugador se gana AD

Segundo jugador se gana DA

Primer jugador se gana BD

Segundo jugador se gana DB

Puede ser representada con metas y creencias que, en el caso del primer jugador, son:

Meta: El primer jugador realiza acción A o El primer jugador realiza acción B.

Creencias:

El primer jugador obtiene el resultado AC

si El primer jugador realiza la acción A

y el segundo jugador realiza la acción C.

El primer jugador obtiene el resultado BC

si El primer jugador realiza la acción B

y el segundo jugador realiza la acción C.

El primer jugador obtiene el resultado AD

si El primer jugador realiza la acción A

y el segundo jugador realiza la acción D.

El primer jugador obtiene el resultado BD

si El primer jugador realiza la acción B

y el segundo jugador realiza la acción D.

Noten que, de acuerdo a las circunstancias, un jugador puede saber o no los resultados del otro agente.

¿Debo llevar el paragüas?

Antes de discutir como resolver el dilema del prisionero, es útil compararlo con el aparentemente no relacionado problema de decidir si debo o nó llevar el paragüas al salir de casa en la mañana.

Podemos representar el problema del paragüas como un juego contra la naturaleza:

Llevo el paragüas

No llevo el paragüas.

Llueve

Sigo seco.

Cargo el paragüas.

Me mojo.

No llueve.

Sigo seco.

Cargo el paragüas.

Sigo seco.

Podemos modelar el juego desde el lado del agente, usando metas y creencias para el agente[1]:

Meta: Si salgo entonces Llevo el paragüas o no llevo el paragüas.

Creencias:

Salgo.

Cargo el paragüas si llevo el paragüas.

Sigo seco si llevo el paragüas.

Sigo seco si no llueve.

Me mojo si no llevo el paragüas y llueve.

Ud puede controlar si lleva o no el paragüas, pero no puede controlar si llueve o no llueve. Lo mejor que puede hacer es estimar la probabilidad de que llueva.

Esto suena familiar. En el capítulo anterior, cuando consideraba si robar o no el banco, escribí:

“Puede controlar si robas o no el banco. Pero no puedes controlar si vas a ser capturado y condenado. No sólo son posibilidades lejos de tu control, sino que ni siquiera puedes predecir su ocurrencia con certeza. Lo mejor que puedes hacer es estimar sus probabilidades”

Es el mismo cuento. Para decidir entre acciones diferentes, Ud debe inferir sus consecuencias, juzgar las utilidades y probabilidades de esas consecuencias, y escoger la acción con la mayor utilidad esperada global.

Suponga que Ud juzga que el beneficio de seguir seco, si llueve, es significativamente superior al costo del inconveniente de tener que cargar el paragüas, llueva o no llueva.[2]. En ese caso, Ud debe llevar el paragüas, si Ud estima que la probabilidad de que llueva es relativamente alta. Pero, Ud debe dejar el paragüas si Ud estima que la probabilidad de que llueva es relativamente baja.

Aplicando Teoría de Decisiones al caso del Paraguas

Esta clase de “pensamiento”[3], que combina juicios de utilidad con estimados de probabilidad es el tema de la llamada Teoría de Decisiones. De acuerdo a esos postulados, uno debe sopesar la utilidad de cada resultado posible de un acción con su probabilidad y luego sumar todas las utilidades alternativas, así sopesadas, para medir la utilidad esperada total de esa acción. Al final, uno debe seleccionar la acción con la mayor utilidad esperada[4].

En el caso de decidir si llevar o no el paraguas, suponga que Ud considera que:

El beneficio de permanecer seco es D.

El costo cargar el paraguas es C.

El costo de mojarse es W.

La probabilidad de que llueva es P,

y en consecuencia, de que no llueva es (1 – P).

entonces, la utilidad esperada de llevar el paraguas es igual a

el beneficio de permanecer seco

menos el costo de cargar el paraguas

= D – C.

La utilidad esperada de no llevar el paraguas es

el beneficio de permanecer seco si no llueve

menos el costo de mojarse si llueve

= (1 – P) ·D – P·W.

Por ejemplo, si el beneficio de permanecer seco es igual a un barra de chocolate, el costo de cargar el paragua es de 2 barras de chocolate y el costo de mojarse es de 9 barras de chocolate, entonces:

D = 1

C = 2

W = 9.

La utilidad esperada de llevar el paraguas es = – 1.

La utilidad esperada de no llevar el paraguas es

= (1 – 10P).

Por lo tanto, si la probabilidad de que llueva es mayor que .20, entonces Ud debería llevar su paraguas. Si es menor que .20, Ud no debería llevar su paraguas. Si es exactamente del .20, entonces no hay diferencia, en barras de chocolate, si Ud lleva o no el paraguas.

El uso de la Teoría de Decisiones es normativo, por cuanto postula una situación ideal (caracterizada por estimado y cálculos utilitarios), que sólo podemos aproximar en la realidad. En la vida real, tendemos a compilar esas decisiones rutinarias en reglas más simples, representadas por metas y creencias:

Metas:

Si salgo y es probable que llueva entonces cargo el paraguas.

Creencias:

Es probable que llueva si hay nubes negras en el cielo.

Es probable que llueva si ha sido pronosticado por el canal del clima.

Resolviendo el Dilema del Prisionero.

Tal como en el caso anterior con el paraguas, en el que Ud decide cuando sale, Ud puede controlar sus acciones, aún si se encuentra en el Dilema del Prisionero, pero no puede controlar el mundo a su alrededor. En este caso, Ud no puede controlar las acciones del otro prisionero. Puede, no obstante, tratar de predecirlas tan bien como sea posible.

Suponga que Ud emplea el método de Teoría de Decisiones y considera que:

La utilidad de ganarse N años en la cárcel es de –N.

La probabilidad de que Keith confiese es de P,

y, por tanto, de que no confiese es (1 – P).

entonces, la utilidad esperada de que Ud confiese

es 3 si Keith confiesa,

y 0 si no lo hace

= –3·P + 0·(1 – P)

= –3·P.

La utilidad esperada de no confesar, para Ud,

es –6 se Keith confiesa,

y –1 si no lo hace

= –6·P – 1·(1 – P)

= –1 – 5·P.

Pero resulta que la utilidad de que Ud confiese es mayor que la de no confesar, –3·P > –1 – 5·P, para todo P. Por lo tanto, sin importar cuál sea la probabilidad P de que Keith confiese, Ud siempre estará en ventaja confesando.

Desafortunadamente, si Keith es tan sagaz como Ud y tiene las mismas creencias, metas y utilidades suyas, entonces va a decidir, de la misma manera, confesar en contra suya, en cuyo caso ambos tendrán, con toda seguridad, ganados sus 3 años en la cárcel. Ambos estarían mejor olvidando todo este asunto de la Teoría de Decisiones, arriesgándose y reusándose a confesar, en cuyo caso ambos obtendrían 1 año de cárcel.

Pero hay otra moraleja para esta historia – que lo malo no es la Teoría de Decisiones, sino su propio juicio egoísta acerca de la utilidad:

Suponga que, en lugar de lo que ha hecho, Ud se preocupara (y ocupara) tanto por Keith como por Ud mismo y considerara que:

La utilidad de que Ud gane N años en la cárcel y Keith M es – (N + M).

Entonces, la utilidad esperada de que Ud confiese

es –6 si Keith confiesa, y

es –6 si no lo hace

= –6·P – 6·(1 – P)

= –6.

La utilidad esperada de que Ud no confiese

es –6 si Keith confiesa, y

es –2 si no lo hace

= –6·P – 2·(1 – P)

= –2 – 4·P.

Pero, ahora, la utilidad de su confesión es menor o igual que la de no confesar, –6 ≤ –2 – 4·P, para cualquier valor de P. Por lo tanto, de nuevo sin importar el valor que se asigne a la probabilidad P de que Keith confiese, no hay ninguna ventaja para Ud en el confesar.

En este caso, además, si Keith tiene las mismas (generosas) creencias, metas y utilidades suyas, entonces va a decidir de la misma manera, no confesar y ambos tendrán asegurado el año de cárcel mínimo.

Pero preocuparse tanto por Keith como por Ud mismo podría sonar un poco ingenuo. Para ser más realista, suponga que Ud quiere a Keith la mitad de lo que se quiere Ud mismo:

La utilidad de que Ud gane N años en la cárcel y Keith M es – (N + 1/2·M).

Entonces, la utilidad esperada de que Ud confiese

es –4.5 si Keith confiesa, y

es –3 si no lo hace

= –4.5·P – 3·(1 – P)

= –3 –1.5·P.

La utilidad esperada de que Ud no confiese

es –6 si Keith confiesa, y

es –1.5 si no lo hace

= –6·P – 1.5·(1 – P)

= –1.5 – 4.5·P.

Note que –3 –1.5·P = –1.5 – 4.5·P cuando P = .5. Por lo tanto, si Ud cree que la probabilidad P de que Keith confiese es menor de .5 entonces Ud no debe confesar . Pero si Ud cree que la probabilidad es mayor que .5 entonces Ud debe confesar – quid pro quo.

Tal como ocurre en el caso de decidir si cargo o no el paragua al salir, estos cálculos son un ideal normativo, al que apenas nos podemos aproximar en la práctica. En la realidad, tendemos a compilar esta decisiones en reglas de conducta, representadas con metas y creencias. Por ejemplo:

Metas:

Si me ofrecen un trato

y el trato me beneficia

y el trato daña a alguien más de lo que me beneficia

y la persona es mi amigo

entonces rechazo el trato.

Si me ofrecen un trato

y el trato me beneficia

y el trato daña a alguien más

y la persona NO es mi amigo

entonces acepto el trato.

Estas reglas no son muy gentiles, pero debe estar claro que pueden ser redefinidas, tanto para cubrir otros casos como para distinguir más precisamente otras características del trato en consideración.

Conclusiones

Hay tres conclusiones. La primera es acerca del Dilema propiamente – es que vale la pena cooperar con otros agentes y simplemente tratar de optimizar sobre sus propios intereses. Esta conclusión es, desde luego, bien conocida en la literatura del Dilema del Prisionero. Lo que quizás no es tan conocido es hasta que punto los beneficios de la cooperación pueden obtenerse simplemente al considerar en bienestar de otros en la función de utilidad.

La segunda conclusión es más general – que para decidir entre distintos cursos de acción necesitamos, no solamente juzgar costos y beneficios de nuestras acciones, sino también estimar las probabilidades de circunstancias fuera de nuestro control. Hemos visto eso antes, pero debe ser enfatizado una vez más, no sólo porque es importante, sino porque ha sido ampliamente ignorado en la lógica tradicional. La estrategia mostrada en este capítulo muestra una forma en que la lógica y la probabilidad se pueden combinar.

La tercer conclusión es más sutil. Es que los cálculos en la Teoría de Decisiones son un ideal normativo, que algunas veces aproximamos en la vida real usando reglas más simples basadas en metas y creencias. Esta relación entre la Teoría de Decisiones “de nivel superior” y las reglas de decisión “de nivel inferior” es como la relación entre representaciones lógicas de alto nivel y asociaciones de entrada-salida de bajo nivel.

Hemos visto, en otros capítulos, que podemos compilar representaciones lógicas de metas y creencias en asociaciones de entrada-salida y, algunas veces, decompilar esas asociaciones en representaciones lógicas. Más aún, pareciera que el pensamiento humano, ambos niveles de pensamiento pueden ocurrir en cascada. Las asociaciones de entrada-salida proponen, con mucha eficiencia, salidas candidatas como respuestas a ciertas entradas, mientras que el razonamiento con metas y creencias supervisa la calidad de esas respuestas.

Parece haber una relación parecida entre Teoría de Decisiones y reglas de decisión. Las reglas puede ser ejecutadas eficientemente, pero la Teoría de Decisión da resultados de mejor calidad. Como en el caso de las representaciones de nivel superior e inferior, la Teoría de Decisiones puede ser usada para supervisar la aplicación de las reglas y proponer modificaciones de las reglas que deben ser cambias, bien porque hay fallado o porque el mismo ambiente ha cambiado. En su libro, Pensando y Decidiendo, Baron discute, en detalle, relaciones similares entre las formas descriptivas, prescriptivas y normativas de tomar decisiones.

[1] Note que la representación en términos de creencias es más informativa que la reprseentación del juego, puesto que indica con más precisión que la tabla, las condiciones de las que depende el resultado de cada acción. Por ejemplo, la representación con creencias indica que permanecer seco depende solamente de cargar el paraguas y no depende de que llueva.

[2] En general, se asume que podemos cuantificar los beneficios y costos en las mismas unidades, por tanto utilidad = beneficios – costos.

[3] De acuerdo Baron, en su “pensar y decidir”, nuestro “pensar” no es tal, sino un “decidir” entre opciones diferentes. Es un asunto interesante hasta que punto “decidir” podría involucrar “pensar” en un nivel diferente (quizás un meta-nivel). Habrá más de esto más adelante.

[4] En términos matemáticos, si una acción tiene n resultados alternativos, con utilidades u₁, u₂, ..., u_n que tienen, respectivamente, probabilidades p₁, p₂, ..., p_n entonces la utilidad esperada de la acción es p_1·u₁ + p_2·u₂ + ... + p_n·u_n.

Actualizado por última vez: Julio 2018

Kowalski. R.A. Lógica Computacional y el Pensamiento Humano (Traducido por Jacinto Dávila) 2011-2018