Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
El Dilema del Prisionero y la Gestion de Proyectos
1. El Dilema del Prisionero y
la Gestión de Proyectos
Ing. Pablo Ortiz, M.Sc., PMP
3 de Diciembre de 2009
Montevideo, Uruguay
2. Agenda
Objetivo
Teoría de Juegos
El dilema del prisionero (DP)
El equilibrio de Nash
El dilema del prisionero iterado (DPI)
Variaciones
El DP y la Gestión de Proyectos
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 2
3. Objetivo
Presentar un problema de la Teoría de
Juegos (una rama de las Matemáticas) y
ver su aplicación en algunos temas de la
Gestión de Proyectos (gestión de
conflictos, gestión de personas,
contratos, ética)
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 3
4. Breve historia de la Teoría de
Juegos
1913 - E. Zermelo provee el primer teorema
de la teoría de juegos; juegos del tipo del
ajedrez pueden ser resueltos en un (gran!)
número finito de movimientos (“teorema de
Zermelo”)
1928 - John von Neumann provee el teorema
minimax
1944 - John von Neumann & Oskar
Morgenstern escriben "Theory of Games and
Economic Behavior”
1950-1953 - John Nash describe el equilibrio
de Nash
1972 - John Maynard Smith escribe
“Game Theory and The Evolution of Fighting”
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 4
5. ¿Qué es la Teoría de
Juegos?
La Teoría de Juegos es el
estudio de como
J. Von Neumann
matemáticamente determinar
la mejor estrategia para unas
condiciones dadas con el fin
de optimizar los resultados
O. Morgenstern
3-dic-09 Ing. Pablo Ortiz, PMP PMP
MSc,
6. El dilema del prisionero
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 6
7. El Dilema del Prisionero
La policía arresta a dos sospechosos.
No hay pruebas suficientes para
condenarlos y, tras haberlos separado
(están incomunicados), los visita a cada
uno y les ofrece el mismo trato. Si
confiesa y su cómplice no, el cómplice
será condenado a la pena total, 20
años, y él será liberado. Si él calla y el
cómplice confiesa, el primero recibirá
esa pena y será el cómplice quien salga
libre. Si ambos confiesan, ambos serán
condenados a 5 años. Si ambos lo
niegan, todo lo que podrán hacer será
encerrarlos durante 1 año por un cargo
menor.
3-dic-09 Ing. Pablo Ortiz, PMP PMP
MSc,
9. Modelando el Juego con 2 Prisioneros
Confiesa
Prisionero 1
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 9
10. Modelando el Juego con 2 Prisioneros
Prisionero 1
Calla
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 10
11. Modelando el Juego con 2 Prisioneros
Ambos confiesan (no cooperan)
cooperan)
Prisionero 2
Confiesa Calla
Prisionero 1
Ambos
Confiesa
confiesan
Calla
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 11
12. Modelando el Juego con 2 Prisioneros
Ambos callan (cooperan)
cooperan)
Prisionero 2
Confiesa Calla
Confiesa
Prisionero 1
Calla Ambos callan
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 12
13. Modelando el Juego con 2 Prisioneros
Prisionero 2
Confiesa Calla
Prisionero1
Confiesa P1 confiesa, P2 calla
Calla
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 13
14. Modelando Juego con 2 Prisioneros
Prisionero 2
Confiesa Calla
Prisionero 1
Confiesa
Calla P1 calla, P2 confiesa
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 14
15. Modelando el Juego con 2 Prisioneros
Prisionero 2
Confiesa Calla
Prisionero 1
Confiesa Ambos confiesan P1 confiesa, P2 calla
Calla P1 calla, P2 confiesa Ambos callan
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 15
16. Términos Básicos
Jugadores: tomadores de decisión (“Prisionero
1 ó 2")
Estrategia: comportamiento de los jugadores
(“calla”/”delata”)
Pay-off: Pago/Rentabilidad/Ganancia (x años
de prisión)
Estrategia dominante: el mejor resultado
para un jugador sin importar la decisión del
otro jugador
Una Matriz de Pagos (Payoff matrix) es una
tabla que muestra las ganancias de cada
posible acción para cada jugador dada cada
posible acción del otro jugador
3-dic-09 Ing. Pablo Ortiz, PMP PMP
MSc,
17. Dilema del Prisionero
Confieso o
me callo?
Prisionero 2
Confiesa Calla
Prisionero1 Confiesa 5, 5 0, 20
Calla 20, 0 1, 1
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 17
18. ¿Cuál es la mejor estrategia?
estrategia?
Matriz de Pagos
Estrategia
¿Qué Dominante
haría si Prisionero 2
fuera el
P1?
Confiesa Calla
Prisionero1 Confiesa 1, 1 3, 0
Calla 0, 3 2, 2
3.libre ; 2.1 año ; 1. 5 años; 0. 20 años Ing. Pablo Ortiz, MSc, PMP 18
3-dic-09
19. El Equilibrio de Nash
John Forbes Nash
Premio Nobel de Economía, 1994
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 19
20. In competition, individual ambition
serves the common good
A. Smith, “The Wealth of Nations”, 1776
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 20
21. Una mente brillante…
John Nash revisa a Adam Smith
http://www.youtube.com/watch?v=_bI_7_abwfI
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 21
22. Diálogo
J.Nash: Adam Smith said: ‘the best result
comes from everyone in the group doing
what’s best for himself, right?
That’s what he said, right?
Incomplete, incomplete. OK?
Because the best result will come from
everyone in the group doing what’s best for
himself and the group.
Governing dynamics.
Adam Smith was wrong
J.Nash: haga lo que es mejor para Ud. y para su grupo de tal forma que Ud. SEPA
que todo el mundo gana algo, tal vez no lo mejor, pero algo
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 22
23. Nash Equilibrium
Si existe un conjunto de estrategias que
cumplen la siguiente propiedad:
ningún jugador puede beneficiarse (obtener
una mejor ganancia) cambiando su estrategia
en tanto el otro jugador mantiene su
estrategias incambiada
entonces el conjunto de estrategias y las
ganancias correspondientes constituyen el
Equilibrio de Nash
Fuente: http://www.lebow.drexel.edu/economics/mccain/game/game.html 3-dic-09 Ing. Pablo Ortiz, MSc, PMP 23
24. ningún jugador puede beneficiarse
cambiando su estrategia en tanto el
Equilibrio otro jugador mantiene sus estrategia
incambiada
de Nash
Prisionero 2
Confiesa Calla
Confiesa 1, 1 3, 0
Prisionero1
Calla 0, 3 2, 2
Equilibrio de Nash: ningún jugador puede unilateralmente mejor su posición
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 24
25. Equilibrio de Nash algo+ formal
algo+
Dado un juego G = (N = {1,2}; S1, S2 ; ΠI, Π2), el par de
estrategias (s1*, s2*) constituyen un Equilibrio de Nash para G
si:
1. Ningún jugador tiene un incentivo de cambiar a otra estrategia
2. Π1 (s1*, s2*) ≥ Π1 (s1, s2*) para todo s1 ∈ S1
y Π2 (s1*, s2*) ≥ Π2 (s1*, s2) para todo s2 ∈ S2
(por ej. Π 1 (calla, confiesa)=0 ≥ Π 1 (confiesa, confiesa)=1 ; NO cumple)
3. ΠI (s1*, s2*) es el máximo de las columnas y Π2 (s1*, s2*) es el
máximo de las filas
Confiesa Calla
Confiesa 1, 1 3, 0
Nota: Πi es una función de pago para cada jugador i
s1=calla ; s2=confiesa
3-dic-09
Calla 0, 3
Ing. Pablo Ortiz, MSc, PMP
2, 2 25
26. La paradoja….
paradoja….
Prisionero 2
Confiesa Calla
Confiesa 1, 1 3, 0
Prisionero1
Calla 0, 3 2, 2
Existe una estrategia cooperativa que podría resultar en mejores ganancias
para ambos prisioneros 3-dic-09 Ing. Pablo Ortiz, MSc, PMP 26
27. Corolario
Si se razona desde la perspectiva del
interés óptimo del grupo (de los dos
prisioneros), el resultado correcto sería
que ambos cooperasen, ya que esto
reduciría el tiempo total de condena del
grupo a un total de un año. Cualquier otra
decisión sería peor para ambos si se
consideran conjuntamente. A pesar de
ello, si siguen sus propios intereses
egoístas, cada uno de los dos prisioneros
recibirá una condena mas larga
¿Porqué?
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 27
28. Torneos del DPI
Robert Axelrod, en su libro La
evolución de la cooperación: el
dilema del prisionero y la teoría
de juegos (1984), estudió una
extensión al escenario clásico del
dilema del prisionero que
denominó dilema del prisionero
iterado (DPI). Aquí, los
participantes deben escoger una
y otra vez su estrategia mutua, y
tienen memoria de sus
encuentros previos
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 28
29. Dilema del Prisionero Iterado
1. Dos jugadores
2. El Dilema del Prisionero
se juega repetidamente
3. La historia de las
interacciones previas es
recordada por cada
jugador (tiene memoria)
4. No existe otro
conocimiento externo
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 29
30. El Torneo sobre el DPI
En los 80’s Axelrod invitó a colegas académicos
de todo el mundo a idear estrategias
automatizadas para competir en un torneo de
DPI. Los programas que participaron variaban
ampliamente en la complejidad del algoritmo,
hostilidad inicial, capacidad de perdón y
similares.
Se realizaron dos torneos, ambos de 200
jugadas, el primero contó con 14 participantes
(programas) y el segundo con 72 programas (ver
http://www.prisoner-dilemma.com )
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 30
31. Tit for Tat (“ojo por ojo”;”toma y
daca”)
Se descubrió que la mejor
estrategia determinista era "tit for
tat”, que fue desarrollada y
presentada en el torneo por Anatol
Rapoport. Era el más simple de
todos los programas presentados,
conteniendo únicamente cuatro
líneas de BASIC, y fue el que ganó
el concurso.
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 31
32. Algoritmo Tit for Tat (TFT)
1. Comience el juego
eligiendo Cooperar
2. Elija lo mismo que su
oponente eligió en la
ronda previa (mov.
espejo), esto es, “si tu http://www.youtube.com/watch?v
=IzddJ4TyeA8
cooperas yo coopero, si tu
no cooperas, yo tampoco”
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 32
33. Ejemplo TFT
Ronda TFT Elección del Pago
oponente
1 C D 0/3
2 D D 1/1
3 D C 3/0
4 C C 2/2
Promedio 1,5/1,5
C-Cooperar ; D-Desertar=Defeccionar=No cooperar=Traicionar, etc.
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 33
34. Ejemplo “ideal” TFT
Ronda TFT Elección Pago
Oponente
1 C C 2/2
2 C C 2/2
3 C C 2/2
4 C C 2/2
Promedio 2.0/2.0
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 34
35. Tit for Tat (TFT)
Axelrod concluyó que cuando se repiten estos
encuentros durante un largo periodo de tiempo
con muchos jugadores, cada uno con distintas
estrategias, las estrategias "egoístas" tendían a
ser peores a largo plazo, mientras que las
estrategias "altruistas" eran mejores,
juzgándolas únicamente con respecto al interés
propio. Usó esto para mostrar un posible
mecanismo que explicase lo que antes había sido
un difícil punto en la teoría de la evolución:
¿cómo puede evolucionar un comportamiento
altruista desde mecanismos puramente egoístas
en la selección natural?
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 35
36. La parajoja del juego del DP
Mientras la cooperación es colectivamente
racional, la deserción es individualmente
racional.
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 36
37. Puntos claves de TFT
Amable (agradable). Comienza
cooperando y sólo deserta como
respuesta a la deserción de otro jugador.
Nunca es responsable de empezar un
ciclo de deserciones mutuas
Provocable (vindicativa). Responde
siempre a lo que el otro jugador hace.
Castiga inmediatamente al otro jugador
si este deserta, pero igualmente
responde adecuadamente si cooperan de
nuevo
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 37
38. Puntos claves de TFT (II)
Capacidad de perdón (indulgente).
Vuelve rápidamente a la cooperación si
el oponente lo hace
Es Clara. Este comportamiento claro y
directo significa que el otro jugador
entiende fácilmente la lógica detrás de
las acciones de TFT y puede así provocar
una cooperación a largo plazo
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 38
39. Mutaciones y “Deadlocks”
“Deadlocks”
Dixit y Nalebuff (1991) afirman que TFT
es “demasiado fácilmente provocable”.
Veamos la siguiente secuencia:
Malinterpreta
Desconfianza
Ronda 1 2 3 4 5 6 7 8 ….
J1: C C C C D C D D D
J2: C C C D C D D D D
Se cae en una espiral de Deserciones.
La Teoría Evolutiva de juegos llama a este
desarrollo “mutaciones”. Solución: agregar
mas movimientos cooperativos3-dic-09 Ing. Pablo Ortiz, MSc, PMP 39
40. Variantes
TF2T (Tit For 2 Tat). Responde a la
primer Deserción Cooperando, si el
oponente vuelve a desertar, el TF2T
responde desertando
TFT con capacidad de perdón (“TFT with
forgiveness”; “generous TFT”). Estrategia
estocástica, se asume una probabilidad w
en la siguiente ronda. Cuando el oponente
deserta se coopera con él con una
pequeña probabilidad (del 1% al 5%). Es
ligeramente mejor.
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 40
41. 4 Consejos de Axelrod
1. No ser el primero en no cooperar.
Comenzar cooperando
2. Devolver tanto la cooperación como la
defección (provocable; vindicable)
3. No ser envidioso (el éxito del otro a la
larga es mi éxito)
4. No ser demasiado listo (no “pasarse de
listo”)
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 41
42. El DP como modelo de
escenarios de la vida real
Publicidad competitiva
“Tragedia de los Comunes”
Colaboración en Investigación
Relaciones biológicas
Manejo en el tráfico Guerra
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 42
43. El DP y la Gestión de Proyectos
Gestión de conflictos
Ética
Gestión de Adquisiciones
Gestión de personas (Contratos)
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 43
44. Gestión de Conflictos
PMBOK, 4ta. Ed., Cap. 9-Gestión de Conflictos
(T&H, Gestionar Equipos de Proyectos)
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 44
45. Negociación efectiva
El objetivo de la negociación es resolver
las fuerzas en competencia, logrando que
ambas partes acuerden una solución
razonable al conflicto. Generalmente el
conflicto se origina debido a la necesidad
que cada parte de buscar la posición
personal mas ventajosa.
Un proyecto requiere una alineación
cercana, cooperativa entre las dos partes,
de tal forma que sea beneficiosa para
ambos 3-dic-09 Ing. Pablo Ortiz, MSc, PMP 45
46. El Dilema del Negociador
Es como Lax y Sebenius denominan a la tensión
entre crear valor (que se enfoca en el acuerdo;
“agrandar la torta”; cooperar) y reclamar valor
(que se enfoca en obtener tanto como sea posible
de ese valor; “dividir la torta”; confrontar)
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 46
Fuente: Lax y Sebenius, 1986, p.158
47. TFT aplicada al dilema del negociador
Aparece como una buena estrategia
Esto se traduce en crear valor al
comenzar y solo reclamar valor si la otra
parte lo hizo, aunque se recomienda
hacerlo si las deserciones previas no
fueron debido al miedo, falta de
conocimiento o escepticismo de la otra
parte (de ahí que una mejor estrategia
sea el TFT con capacidad de perdón)
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 47
48. TFT aplicada al dilema del
negociador (II)
¿Cómo evitar el deadlock que lleva la
competencia y resultados sub-óptimos?
1. La clave es mejorar la comunicación entre ambas
partes. Recordemos que el Dilema se da porque una
parte desconoce las intenciones de la otra parte
2. Incrementar la importancia del futuro en comparación
con el presente
3. Modificar los pagos asignados a los jugadores
4. Enseñar a los jugadores valores, hechos y destrezas
que sirvan para promover la cooperación
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 48
49. Gestión de Recursos. El Dilema del GP
Supongamos un GP hizo todo lo posible para terminar
el proyecto en tiempo, pero cometió un error y
necesita mas tiempo de un recurso crítico. El
problema es que otro GP también necesita de ese
recurso. En resumen:
• Si el GP1 confiesa que necesita ese recurso y el GP2 no,
entonces tendrá el recurso 100% y estará a salvo
• Si el GP1 confiesa que lo necesita y el GP2 también, existirá
una evaluación y ambos proyectos perderán el recurso
• Si el GP1 no confiesa y el GP2 lo hace, él obtendrá el recurso y
el GP1 perderá su proyecto y eventualmente será sancionado
• Si ninguno de los dos confiesa, y se quedan en silencio,
probablemente ambos proyectos se atrasen, pero se terminarán
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 49
50. Gestión de Recursos
En este juego en particular si ambos GP reclaman la persona
para su proyecto, ambos pierden, dado que ninguno tiene el
recurso, ambos tienen 1 pto. dado que éste todavía está
disponible.
Si ambos comparten el recurso tienen 3 puntos de ganancia.
Si el GP 1 reclama son 5 ptos. y el GP 2 no gana nada, y
recíprocamente
GP2
Comparte Reclama
Comparte 3,3 0,5
GP1
Reclama 5,0 1,1
Fuente: http://blog.softwareprojects.org/how-one-thing-leads-to-another-44.html
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 50
51. Ejemplo de Contratos en el Desarrollo
de Software
Cada contrato en el Desarrollo de
Software es un DP:
1. Si el desarrollador (o software house)
entrega algo que no funciona y el cliente
paga, aquel recibe el beneficio y el
cliente nada
2. Si el desarrollador entrega algo que
funciona y el cliente no paga, el cliente
se queda con el producto y el
desarrollador sin nada
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 51
52. (cont)
cont)
3. Si ambos trabajan cooperativamente, el
desarrollador entrega el software
funcionando y el cliente paga
4. Si ambos no cooperan, ambos pierden,
pero al menos, el desarrollador retiene el
código y el cliente el dinero
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 52
53. Pagos por fases y el DPI
Realmente el pago del software se
establece actualmente en un contrato
multifases, en el cual de hecho cada fase
es un DP
Un problema que se puede presentar es el
no pago del último pago (defección en la
ultima ronda), de ahí que se fijan
normalmente estrategias tales como:
incluir una clave de software, no entregar
el código hasta el último pago, incluir el
mantenimiento en el contrato, etc.
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 53
54. Ética
“There must be some coercive power to compel
men equally to the performance of their
covenants by the terror of some punishment
greater than the benefit they expect by the
breach of their covenant....”
T. Hobbes- Leviathan, XV
“It's a mutual, joint-stock world, in all meridians.
We, cannibals, must help these Christians.“
H. Melville- Moby Dick , comentario de Ismael sobre el caníbal Queequeg
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 54
55. Etica
Axelrod , recordemos, se hacía la siguiente pregunta en su
trabajo: ¿en qué condiciones llegará a surgir la cooperación
en un mundo de egoístas no sometidos a una autoridad
central?
“Todos sabemos que la mayoría de nosotros no somos
santos y que tendemos a ocuparnos preferentemente de
nosotros mismos y de los nuestros. Sin embargo, sabemos
igualmente que la cooperación existe, y que nuestra
civilización está fundada en ella. Ahora bien, en situaciones
en las que cada uno de los individuos tenga incentivos para
ser egoísta, ¿cómo podrá llegar a desarrollarse la
cooperación?”.
Interacciones
frecuentes +
“sombra del futuro”
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 55
56. Código de Ética Profesional y TFT
Responsabilidad Amable
Provocable
Respeto
(C con C, NC con NC)
Equidad No ser envidioso
No pasarse de listo
Honestidad
(no hacer trampas)
Axelrod: Promover el altruismo para desarrollar la cooperación en la
sociedad.
Regla Dorada (Ética de la Reciprocidad):
Tratar a las otras personas como nos gustarían que nos trataran
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 56
57. ¿Cuál es la clave del Éxito de los
Proyectos?
Apoyo de la Experiencia del Involucramiento
Alta Gte. de Proyecto de los usuarios
Gerencia
Etc..
Cooperación???
Futuras relac.
interacciones
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 57
58. Ejercicio
En la reciente contienda política el Partido
Nacional ofreció debatir ideas y
programas al Frente Amplio. Finalmente
éste declinó la propuesta.
a) ¿Cuál fue la estrategia aplicada?
b) ¿Cuál es la estrategia dominante?
c) ¿ Es la mejor estrategia (desde el punto
de vista de la TG … y tal vez de los
votantes)?
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 58
59. Bibliografía breve
Axelrod, R. (1984). The Evolution of Cooperation.
BasicBooks, Inc., Publishers. (Trad. Alianza Editorial, 1986).
Dixit, A.K. y Nalebuff B.J. (1991). Thinking Strategically. The Competitive
Edge in Business, Politics and Everyday Life, New York, 1991
Wikipedia. Game Theory. http://en.wikipedia.org/wiki/Game_theory
Wikipedia. Prisoner Dilemma. http://en.wikipedia.org/wiki/Prisoner_dilemma
Tenbergen R. (2001): Principled Negotitation and Negotiatior’s Dilemma- is
the “Getting to Yes” –approach too “soft”?. Harvard University, 2001
The Ethical Spectacle (1995). The Prisioner’s Dilemma in Software
Development. http://www.spectacle.org
Sitios del Dilema del Prisionero.
http://www.prisoner-dilemma.com
http://www.gametheory.net/Dictionary/PrisonersDilemma.html
http://www.princeton.edu/~mdaniels/PD/PD.html (juego en línea)
http://serendip.brynmawr.edu/playground/pd.html (otro juego en línea)
3-dic-09 Ing. Pablo Ortiz, MSc, PMP 59