Otimização de Política Proximal – Wikipédia, a enciclopédia livre

Otimização de Política Proximal (em inglês Proximal Policy Optimization (PPO)) é uma família de algoritmos de aprendizado por reforço sem modelo desenvolvido na OpenAI em 2017. Os algoritmos PPO são métodos de gradiente de política, o que significa que eles pesquisam o espaço de políticas em vez de atribuir valores a pares de estado-ação.

Os algoritmos PPO têm alguns dos benefícios dos algoritmos de otimização de política de região confiável (TRPO), mas são mais simples de implementar, mais gerais e têm uma complexidade de amostra melhor.^[1] Isso é feito usando uma função objetivo diferente.^[2]

Veja também

Aprendizagem por reforço
Aprendizagem por diferença temporal
Teoria do jogo

Referências

↑ Schulman, John; Wolski, Filip. «Proximal Policy Optimization Algorithms». arXiv:1707.06347
↑ «Proximal Policy Optimization». OpenAI. 2017

Ligações externas

[1] Schulman, John; Wolski, Filip. «Proximal Policy Optimization Algorithms». arXiv:1707.06347

[2] «Proximal Policy Optimization». OpenAI. 2017

[1]

[2]