O documento descreve o Cepheus, um programa de inteligência artificial desenvolvido na Universidade de Alberta que é capaz de jogar poker de forma ideal contra humanos. O Cepheus foi treinado contra si mesmo por dois meses usando milhares de CPUs e bilhões de mãos simuladas por segundo para aprender a estratégia perfeita. Ele usa um algoritmo chamado CFR+ para tomar decisões durante o jogo.
1. Cepheus
Bruno Lopes | Gabriel D’ Amore | Patrick Fonseca
O jogador perfeito de Heads-up Texas Hold’em poker
2. Os jogos e a computação
O Poker é um desafio para a Inteligência
Artificial, computação e psicologia há mais
de 40 anos!
Há 17 anos atrás, Koller and Pfeffer
(cientistas da teoria dos jogos) afirmaram:
“Nós estamos muito longe de resolver jogos
de grande escala, como por exemplo o
poker, e é improvável que um dia seremos
capaz de resolvermos”.
3. Carta de
outros
jogadores
Desafio
O Poker é um jogo de…
Informação imperfeita, pois o
jogador não possui todas as
informações necessárias para tomar
uma decisão.
A peça mais relevante de
informação no poker são as cartas
dos outros jogadores, e é
exatamente o que não é conhecido.
Informação
imperfeita
O Que não
conhecemos
5. Poker Texas Hold’em
2
3
3
4
6
Cada jogador começa com 2
cartas.
No total, 5 cartas são viradas
na mesa, que são abertas da
seguinte maneira:
• Flop: 3 cartas são viradas de
um vez só;
• Turn: 1 carta é virada;
• River: 1 carta é virada;
Objetivo: Fazer a melhor
mão possível usando 5
cartas.
Termos:
• Blind: Apostas obrigatórias;
• Fold: Desistir da mão;
• Call: Pagar a aposta;
• Check: Não tomar nenhuma
ação;
• Bet: Apostar;
• Raise: Aumentar a aposta;
* Dealer: No heads-up poker
representa o small-blind.
1
8. As áreas sombreadas representam as técnicas
utilizadas para atingir o resultado de 3.19 x 10^14
informations sets (quantidade de situações possíveis
onde um jogador deve realizar uma tomada de
decisão).
Tammelin inventou o CFR +, uma extensão da
Universidade de Albeta do algoritimo CFR.
Algoritimos
10. Cepheus
Uma estratégia ideal em poker é aquela que
garante nao perder dinheiro a longo prazo.
Cepheus conseguiu esse objetivo sem ajuda humana, sendo
apenas dadas as regras do jogo. Ele foi treinado contra si
mesmo. O programa foi treinado por dois meses, usando
mais de quatro mil CPUs, considerando mais de seis
bilhões de mãos a cada segundo!
Tammelin inventou CFR +, uma extensão da Universidade de
Alberta do algoritmo CFR, que é como Cepheus aprende a
jogar poker, jogando contra si mesmo.
Desenvolvido na Universidade de Alberta, no Canadá.
11. Cepheus
“How to use the strategy query tool”
É possivel configurar uma situação, com as cartas
públicas e a sequência de apostas que ocorreu, e
descobrir como Cepheus agiria nessa situação com
qualquer mão.
A ferramenta de estratégia que o Cepheus usa, pode
ser muito lenta para responder, pois o Cepheus usa
uma estratégia pré computada que exige 12
terabytes de armazenamento comprimido. Lendo
as informações necessárias a partir do disco e
descompactando-as para responder a uma consulta
de estratégia, o que leva um pouco de tempo.