Este artigo apresenta uma metodologia para coordenar os atuadores das pernas de robôs móveis usando aprendizado por reforço para maximizar a velocidade frontal do robô. A posição dos atuadores é descrita por funções periódicas que são determinadas iterativamente. Dois casos de estudo são simulados e implementados em robôs reais: um quadrúpede e um trípede.