Skip to content

turing-usp/Trainee-RL-2024

 
 

Repository files navigation

Boas vindas ao Projeto Trainee 2021 da área de Aprendizado por Reforço!

Antes de mais nada, recomendamos ler a seção de 👩‍🏫 Introdução do nosso Repositório de Aprendizado por Reforço para se familiarizar com os conceitos principais da área!

O projeto será dividido em duas partes:

Nessa primeira etapa do projeto, você construirá um agente simples de Aprendizado por Reforço para entender um pouco melhor os principais conceitos da área aplicados em algum tipo de código. Aqui, você aprenderá sobre o clássico problema dos k-Armed Bandits, como conseguir estimar valores para determinada ações com base na recompensa, como selecionar ações com esse maior valor estimado e como conseguir explorar o ambiente para que o agente descubra novas ações. Você também aprenderá como treinar esse agentes criados.

Para isso, recomendamos nosso 📰 Turing Talks sobre o assunto e também a nossa implementação dele no nosso 🎰 Repositório.

Comece agora mesmo acessando o notebook da Tarefa 1 - Bandits!

Na segunda parte do projeto, você deverá implementar e comparar diferentes algoritmos de Aprendizado por Reforço Profundo utilizando a biblioteca Stable Baselines 3.

Este repositório já contém um tutorial simples de como utilizar a biblioteca, que você pode conferir aqui!

Para começar a tarefa, basta acessar e alterar este notebook!

Por fim, propomos uma tarefa extra 100% opcional caso queira treinar suas habilidades de RL! Ao final do projeto Trainee, caso ache interessante, você pode optar por treinar um novo modelo para o ambiente slime-volleyball, um jogo de vôlei no qual seu agente pode competir com os jogadores de outros membros.

Para treinar seu próprio agente, basta rodar este Jupyter Notebook em seu Google Colaboratory. Recomendamos, antes de começar, que você converse com algum dos veteranos da área, copie o notebook para seu drive e edite os hiperparâmetros conforme necessário!

DISCLAMER: Os agentes de vôlei demorarão muitas horas (3+) para serem treinados e nem sempre superarão a IA já programada no próprio jogo, então não se desanime caso não esteja obtendo resultados rapidamente! Lembrando que esta é uma tarefa 100% opcional.

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 100.0%