El Dilema del Prisionero y la Gestion de Proyectos

El Dilema del Prisionero y
la Gestión de Proyectos

Ing. Pablo Ortiz, M.Sc., PMP
3 de Diciembre de 2009
Montevideo, Uruguay

Agenda

Objetivo
Teoría de Juegos
El dilema del prisionero (DP)
El equilibrio de Nash
El dilema del prisionero iterado (DPI)
Variaciones
El DP y la Gestión de Proyectos

3-dic-09 Ing. Pablo Ortiz, MSc, PMP 2

Objetivo
Presentar un problema de la Teoría de
Juegos (una rama de las Matemáticas) y
ver su aplicación en algunos temas de la
Gestión de Proyectos (gestión de
conflictos, gestión de personas,
contratos, ética)


Breve historia de la Teoría de
Juegos
1913 - E. Zermelo provee el primer teorema
de la teoría de juegos; juegos del tipo del
ajedrez pueden ser resueltos en un (gran!)
número finito de movimientos (“teorema de
Zermelo”)
1928 - John von Neumann provee el teorema
minimax
1944 - John von Neumann & Oskar
Morgenstern escriben "Theory of Games and
Economic Behavior”
1950-1953 - John Nash describe el equilibrio
de Nash
1972 - John Maynard Smith escribe
“Game Theory and The Evolution of Fighting”

¿Qué es la Teoría de
Juegos?

La Teoría de Juegos es el
estudio de como
J. Von Neumann
matemáticamente determinar
la mejor estrategia para unas
condiciones dadas con el fin
de optimizar los resultados

O. Morgenstern

3-dic-09 Ing. Pablo Ortiz, PMP PMP
MSc,

El dilema del prisionero


El Dilema del Prisionero
La policía arresta a dos sospechosos.
No hay pruebas suficientes para
condenarlos y, tras haberlos separado
(están incomunicados), los visita a cada
uno y les ofrece el mismo trato. Si
confiesa y su cómplice no, el cómplice
será condenado a la pena total, 20
años, y él será liberado. Si él calla y el
cómplice confiesa, el primero recibirá
esa pena y será el cómplice quien salga
libre. Si ambos confiesan, ambos serán
condenados a 5 años. Si ambos lo
niegan, todo lo que podrán hacer será
encerrarlos durante 1 año por un cargo
menor.

MSc,

Modelando el Juego con 2 Prisioneros

Confiesa
Prisionero 1



Prisionero 1

Calla


Ambos confiesan (no cooperan)
cooperan)
Prisionero 2

Confiesa Calla
Prisionero 1

Ambos
Confiesa
confiesan

Calla


Ambos callan (cooperan)
cooperan)

Prisionero 2

Confiesa Calla

Confiesa
Prisionero 1

Calla Ambos callan



Prisionero 2

Confiesa Calla
Prisionero1

Confiesa P1 confiesa, P2 calla

Calla


Modelando Juego con 2 Prisioneros

Prisionero 2

Confiesa Calla
Prisionero 1

Confiesa

Calla P1 calla, P2 confiesa



Prisionero 2

Confiesa Calla
Prisionero 1

Confiesa Ambos confiesan P1 confiesa, P2 calla

Calla P1 calla, P2 confiesa Ambos callan


Términos Básicos
Jugadores: tomadores de decisión (“Prisionero
1 ó 2")
Estrategia: comportamiento de los jugadores
(“calla”/”delata”)
Pay-off: Pago/Rentabilidad/Ganancia (x años
de prisión)
Estrategia dominante: el mejor resultado
para un jugador sin importar la decisión del
otro jugador
Una Matriz de Pagos (Payoff matrix) es una
tabla que muestra las ganancias de cada
posible acción para cada jugador dada cada
posible acción del otro jugador
MSc,

Dilema del Prisionero
Confieso o
me callo?

Prisionero 2

Confiesa Calla

Prisionero1 Confiesa 5, 5 0, 20

Calla 20, 0 1, 1


¿Cuál es la mejor estrategia?
estrategia?
Matriz de Pagos
Estrategia
¿Qué Dominante
haría si Prisionero 2
fuera el
P1?
Confiesa Calla

Prisionero1 Confiesa 1, 1 3, 0

Calla 0, 3 2, 2

3.libre ; 2.1 año ; 1. 5 años; 0. 20 años Ing. Pablo Ortiz, MSc, PMP 18
3-dic-09

El Equilibrio de Nash

John Forbes Nash
Premio Nobel de Economía, 1994


In competition, individual ambition
serves the common good

A. Smith, “The Wealth of Nations”, 1776


Una mente brillante…

John Nash revisa a Adam Smith

http://www.youtube.com/watch?v=_bI_7_abwfI


Diálogo
J.Nash: Adam Smith said: ‘the best result
comes from everyone in the group doing
what’s best for himself, right?
That’s what he said, right?
Incomplete, incomplete. OK?
Because the best result will come from
everyone in the group doing what’s best for
himself and the group.
Governing dynamics.
Adam Smith was wrong

J.Nash: haga lo que es mejor para Ud. y para su grupo de tal forma que Ud. SEPA
que todo el mundo gana algo, tal vez no lo mejor, pero algo

Nash Equilibrium
Si existe un conjunto de estrategias que
cumplen la siguiente propiedad:

ningún jugador puede beneficiarse (obtener
una mejor ganancia) cambiando su estrategia
en tanto el otro jugador mantiene su
estrategias incambiada

entonces el conjunto de estrategias y las
ganancias correspondientes constituyen el
Equilibrio de Nash
Fuente: http://www.lebow.drexel.edu/economics/mccain/game/game.html 3-dic-09 Ing. Pablo Ortiz, MSc, PMP 23

ningún jugador puede beneficiarse
cambiando su estrategia en tanto el
Equilibrio otro jugador mantiene sus estrategia
incambiada
de Nash
Prisionero 2

Confiesa Calla

Confiesa 1, 1 3, 0
Prisionero1

Calla 0, 3 2, 2

Equilibrio de Nash: ningún jugador puede unilateralmente mejor su posición

Equilibrio de Nash algo+ formal
algo+
Dado un juego G = (N = {1,2}; S1, S2 ; ΠI, Π2), el par de
estrategias (s1*, s2*) constituyen un Equilibrio de Nash para G
si:

1. Ningún jugador tiene un incentivo de cambiar a otra estrategia

2. Π1 (s1*, s2*) ≥ Π1 (s1, s2*) para todo s1 ∈ S1
y Π2 (s1*, s2*) ≥ Π2 (s1*, s2) para todo s2 ∈ S2

(por ej. Π 1 (calla, confiesa)=0 ≥ Π 1 (confiesa, confiesa)=1 ; NO cumple)

3. ΠI (s1*, s2*) es el máximo de las columnas y Π2 (s1*, s2*) es el
máximo de las filas
Confiesa Calla

Confiesa 1, 1 3, 0
Nota: Πi es una función de pago para cada jugador i
s1=calla ; s2=confiesa
3-dic-09
Calla 0, 3
Ing. Pablo Ortiz, MSc, PMP
2, 2 25

La paradoja….
paradoja….
Prisionero 2

Confiesa Calla

Confiesa 1, 1 3, 0
Prisionero1

Calla 0, 3 2, 2

Existe una estrategia cooperativa que podría resultar en mejores ganancias
para ambos prisioneros 3-dic-09 Ing. Pablo Ortiz, MSc, PMP 26

Corolario
Si se razona desde la perspectiva del
interés óptimo del grupo (de los dos
prisioneros), el resultado correcto sería
que ambos cooperasen, ya que esto
reduciría el tiempo total de condena del
grupo a un total de un año. Cualquier otra
decisión sería peor para ambos si se
consideran conjuntamente. A pesar de
ello, si siguen sus propios intereses
egoístas, cada uno de los dos prisioneros
recibirá una condena mas larga
¿Porqué?

Torneos del DPI

Robert Axelrod, en su libro La
evolución de la cooperación: el
dilema del prisionero y la teoría
de juegos (1984), estudió una
extensión al escenario clásico del
dilema del prisionero que
denominó dilema del prisionero
iterado (DPI). Aquí, los
participantes deben escoger una
y otra vez su estrategia mutua, y
tienen memoria de sus
encuentros previos

Dilema del Prisionero Iterado
1. Dos jugadores

2. El Dilema del Prisionero
se juega repetidamente

3. La historia de las
interacciones previas es
recordada por cada
jugador (tiene memoria)

4. No existe otro
conocimiento externo


El Torneo sobre el DPI
En los 80’s Axelrod invitó a colegas académicos
de todo el mundo a idear estrategias
automatizadas para competir en un torneo de
DPI. Los programas que participaron variaban
ampliamente en la complejidad del algoritmo,
hostilidad inicial, capacidad de perdón y
similares.

Se realizaron dos torneos, ambos de 200
jugadas, el primero contó con 14 participantes
(programas) y el segundo con 72 programas (ver
http://www.prisoner-dilemma.com )


Tit for Tat (“ojo por ojo”;”toma y
daca”)

Se descubrió que la mejor
estrategia determinista era "tit for
tat”, que fue desarrollada y
presentada en el torneo por Anatol
Rapoport. Era el más simple de
todos los programas presentados,
conteniendo únicamente cuatro
líneas de BASIC, y fue el que ganó
el concurso.


Algoritmo Tit for Tat (TFT)

1. Comience el juego
eligiendo Cooperar

2. Elija lo mismo que su
oponente eligió en la
ronda previa (mov.
espejo), esto es, “si tu http://www.youtube.com/watch?v
=IzddJ4TyeA8
cooperas yo coopero, si tu
no cooperas, yo tampoco”


Ejemplo TFT
Ronda TFT Elección del Pago
oponente
1 C D 0/3

2 D D 1/1

3 D C 3/0

4 C C 2/2

Promedio 1,5/1,5

C-Cooperar ; D-Desertar=Defeccionar=No cooperar=Traicionar, etc.

Ejemplo “ideal” TFT
Ronda TFT Elección Pago
Oponente
1 C C 2/2

2 C C 2/2

3 C C 2/2

4 C C 2/2

Promedio 2.0/2.0


Tit for Tat (TFT)
Axelrod concluyó que cuando se repiten estos
encuentros durante un largo periodo de tiempo
con muchos jugadores, cada uno con distintas
estrategias, las estrategias "egoístas" tendían a
ser peores a largo plazo, mientras que las
estrategias "altruistas" eran mejores,
juzgándolas únicamente con respecto al interés
propio. Usó esto para mostrar un posible
mecanismo que explicase lo que antes había sido
un difícil punto en la teoría de la evolución:
¿cómo puede evolucionar un comportamiento
altruista desde mecanismos puramente egoístas
en la selección natural?

La parajoja del juego del DP

Mientras la cooperación es colectivamente
racional, la deserción es individualmente
racional.


Puntos claves de TFT

Amable (agradable). Comienza
cooperando y sólo deserta como
respuesta a la deserción de otro jugador.
Nunca es responsable de empezar un
ciclo de deserciones mutuas
Provocable (vindicativa). Responde
siempre a lo que el otro jugador hace.
Castiga inmediatamente al otro jugador
si este deserta, pero igualmente
responde adecuadamente si cooperan de
nuevo

Puntos claves de TFT (II)

Capacidad de perdón (indulgente).
Vuelve rápidamente a la cooperación si
el oponente lo hace
Es Clara. Este comportamiento claro y
directo significa que el otro jugador
entiende fácilmente la lógica detrás de
las acciones de TFT y puede así provocar
una cooperación a largo plazo


Mutaciones y “Deadlocks”
“Deadlocks”
Dixit y Nalebuff (1991) afirman que TFT
es “demasiado fácilmente provocable”.
Veamos la siguiente secuencia:
Malinterpreta
Desconfianza

Ronda 1 2 3 4 5 6 7 8 ….
J1: C C C C D C D D D
J2: C C C D C D D D D

Se cae en una espiral de Deserciones.
La Teoría Evolutiva de juegos llama a este
desarrollo “mutaciones”. Solución: agregar
mas movimientos cooperativos3-dic-09 Ing. Pablo Ortiz, MSc, PMP 39

Variantes
TF2T (Tit For 2 Tat). Responde a la
primer Deserción Cooperando, si el
oponente vuelve a desertar, el TF2T
responde desertando
TFT con capacidad de perdón (“TFT with
forgiveness”; “generous TFT”). Estrategia
estocástica, se asume una probabilidad w
en la siguiente ronda. Cuando el oponente
deserta se coopera con él con una
pequeña probabilidad (del 1% al 5%). Es
ligeramente mejor.

4 Consejos de Axelrod
1. No ser el primero en no cooperar.
Comenzar cooperando

2. Devolver tanto la cooperación como la
defección (provocable; vindicable)

3. No ser envidioso (el éxito del otro a la
larga es mi éxito)

4. No ser demasiado listo (no “pasarse de
listo”)

El DP como modelo de
escenarios de la vida real

Publicidad competitiva
“Tragedia de los Comunes”
Colaboración en Investigación

Relaciones biológicas
Manejo en el tráfico Guerra

El DP y la Gestión de Proyectos

Gestión de conflictos
Ética

Gestión de Adquisiciones
Gestión de personas (Contratos)

Gestión de Conflictos

PMBOK, 4ta. Ed., Cap. 9-Gestión de Conflictos
(T&H, Gestionar Equipos de Proyectos)

Negociación efectiva
El objetivo de la negociación es resolver
las fuerzas en competencia, logrando que
ambas partes acuerden una solución
razonable al conflicto. Generalmente el
conflicto se origina debido a la necesidad
que cada parte de buscar la posición
personal mas ventajosa.

Un proyecto requiere una alineación
cercana, cooperativa entre las dos partes,
de tal forma que sea beneficiosa para
ambos 3-dic-09 Ing. Pablo Ortiz, MSc, PMP 45

El Dilema del Negociador
Es como Lax y Sebenius denominan a la tensión
entre crear valor (que se enfoca en el acuerdo;
“agrandar la torta”; cooperar) y reclamar valor
(que se enfoca en obtener tanto como sea posible
de ese valor; “dividir la torta”; confrontar)

Fuente: Lax y Sebenius, 1986, p.158

TFT aplicada al dilema del negociador

Aparece como una buena estrategia

Esto se traduce en crear valor al
comenzar y solo reclamar valor si la otra
parte lo hizo, aunque se recomienda
hacerlo si las deserciones previas no
fueron debido al miedo, falta de
conocimiento o escepticismo de la otra
parte (de ahí que una mejor estrategia
sea el TFT con capacidad de perdón)

TFT aplicada al dilema del
negociador (II)
¿Cómo evitar el deadlock que lleva la
competencia y resultados sub-óptimos?

1. La clave es mejorar la comunicación entre ambas
partes. Recordemos que el Dilema se da porque una
parte desconoce las intenciones de la otra parte
2. Incrementar la importancia del futuro en comparación
con el presente
3. Modificar los pagos asignados a los jugadores
4. Enseñar a los jugadores valores, hechos y destrezas
que sirvan para promover la cooperación


Gestión de Recursos. El Dilema del GP
Supongamos un GP hizo todo lo posible para terminar
el proyecto en tiempo, pero cometió un error y
necesita mas tiempo de un recurso crítico. El
problema es que otro GP también necesita de ese
recurso. En resumen:

• Si el GP1 confiesa que necesita ese recurso y el GP2 no,
entonces tendrá el recurso 100% y estará a salvo
• Si el GP1 confiesa que lo necesita y el GP2 también, existirá
una evaluación y ambos proyectos perderán el recurso
• Si el GP1 no confiesa y el GP2 lo hace, él obtendrá el recurso y
el GP1 perderá su proyecto y eventualmente será sancionado
• Si ninguno de los dos confiesa, y se quedan en silencio,
probablemente ambos proyectos se atrasen, pero se terminarán


Gestión de Recursos
En este juego en particular si ambos GP reclaman la persona
para su proyecto, ambos pierden, dado que ninguno tiene el
recurso, ambos tienen 1 pto. dado que éste todavía está
disponible.

Si ambos comparten el recurso tienen 3 puntos de ganancia.

Si el GP 1 reclama son 5 ptos. y el GP 2 no gana nada, y
recíprocamente
GP2
Comparte Reclama

Comparte 3,3 0,5
GP1

Reclama 5,0 1,1

Fuente: http://blog.softwareprojects.org/how-one-thing-leads-to-another-44.html


Ejemplo de Contratos en el Desarrollo
de Software
Cada contrato en el Desarrollo de
Software es un DP:

1. Si el desarrollador (o software house)
entrega algo que no funciona y el cliente
paga, aquel recibe el beneficio y el
cliente nada
2. Si el desarrollador entrega algo que
funciona y el cliente no paga, el cliente
se queda con el producto y el
desarrollador sin nada

(cont)
cont)

3. Si ambos trabajan cooperativamente, el
desarrollador entrega el software
funcionando y el cliente paga

4. Si ambos no cooperan, ambos pierden,
pero al menos, el desarrollador retiene el
código y el cliente el dinero


Pagos por fases y el DPI

Realmente el pago del software se
establece actualmente en un contrato
multifases, en el cual de hecho cada fase
es un DP
Un problema que se puede presentar es el
no pago del último pago (defección en la
ultima ronda), de ahí que se fijan
normalmente estrategias tales como:
incluir una clave de software, no entregar
el código hasta el último pago, incluir el
mantenimiento en el contrato, etc.

Ética

“There must be some coercive power to compel
men equally to the performance of their
covenants by the terror of some punishment
greater than the benefit they expect by the
breach of their covenant....”

T. Hobbes- Leviathan, XV

“It's a mutual, joint-stock world, in all meridians.
We, cannibals, must help these Christians.“
H. Melville- Moby Dick , comentario de Ismael sobre el caníbal Queequeg


Etica
Axelrod , recordemos, se hacía la siguiente pregunta en su
trabajo: ¿en qué condiciones llegará a surgir la cooperación
en un mundo de egoístas no sometidos a una autoridad
central?

“Todos sabemos que la mayoría de nosotros no somos
santos y que tendemos a ocuparnos preferentemente de
nosotros mismos y de los nuestros. Sin embargo, sabemos
igualmente que la cooperación existe, y que nuestra
civilización está fundada en ella. Ahora bien, en situaciones
en las que cada uno de los individuos tenga incentivos para
ser egoísta, ¿cómo podrá llegar a desarrollarse la
cooperación?”.
Interacciones
frecuentes +
“sombra del futuro”

Código de Ética Profesional y TFT

Responsabilidad Amable

Provocable
Respeto
(C con C, NC con NC)

Equidad No ser envidioso

No pasarse de listo
Honestidad
(no hacer trampas)

Axelrod: Promover el altruismo para desarrollar la cooperación en la
sociedad.
Regla Dorada (Ética de la Reciprocidad):
Tratar a las otras personas como nos gustarían que nos trataran

¿Cuál es la clave del Éxito de los
Proyectos?
Apoyo de la Experiencia del Involucramiento
Alta Gte. de Proyecto de los usuarios
Gerencia
Etc..
Cooperación???

Futuras relac.
interacciones


Ejercicio
En la reciente contienda política el Partido
Nacional ofreció debatir ideas y
programas al Frente Amplio. Finalmente
éste declinó la propuesta.

a) ¿Cuál fue la estrategia aplicada?
b) ¿Cuál es la estrategia dominante?
c) ¿ Es la mejor estrategia (desde el punto
de vista de la TG … y tal vez de los
votantes)?


Bibliografía breve
Axelrod, R. (1984). The Evolution of Cooperation.
BasicBooks, Inc., Publishers. (Trad. Alianza Editorial, 1986).

Dixit, A.K. y Nalebuff B.J. (1991). Thinking Strategically. The Competitive
Edge in Business, Politics and Everyday Life, New York, 1991

Wikipedia. Game Theory. http://en.wikipedia.org/wiki/Game_theory

Wikipedia. Prisoner Dilemma. http://en.wikipedia.org/wiki/Prisoner_dilemma

Tenbergen R. (2001): Principled Negotitation and Negotiatior’s Dilemma- is
the “Getting to Yes” –approach too “soft”?. Harvard University, 2001

The Ethical Spectacle (1995). The Prisioner’s Dilemma in Software
Development. http://www.spectacle.org

Sitios del Dilema del Prisionero.
http://www.prisoner-dilemma.com
http://www.gametheory.net/Dictionary/PrisonersDilemma.html
http://www.princeton.edu/~mdaniels/PD/PD.html (juego en línea)
http://serendip.brynmawr.edu/playground/pd.html (otro juego en línea)

El Dilema del Prisionero y la Gestion de Proyectos

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (10)

Último

Último (20)

El Dilema del Prisionero y la Gestion de Proyectos