O documento descreve um algoritmo de iteração de políticas para resolver problemas de decisão de Markov. Ele começa com uma política aleatória e repetidamente avalia e melhora a política atual até convergir para uma política ótima. O algoritmo é demonstrado em um exemplo de um robô que deve patrular um corredor.