1. Introdução aos Processos de Decisão Markovianos; 2. Gradiente de política. Algoritmo Reinforce e a técnica da score-function; 3. Método actor-critic; 4. Aprendizado da função valor para redução da variância do gradiente da política; 5. Tópicos avançados de aprendizado por reforço.
- Docente: Ângelo Gregório Lovatto
- Docente: Leliane Nunes de Barros
- Docente: Thiago Pereira Bueno
Curso Oficial PRCEU: Nein