目前主要是一些单智能体深度强化学习方法的复现
学生习作,以大神sutton的书和周博磊的课程为线索复现
- DQN
- REINFORCE
- REINFORCE with baseline
- one-step AC
- QAC
- QAC with shared network
- PPO2
- DDPG
- TD3
- SAC
- SAC (离散动作)
- A2C
- A3C
CSDN 地址 | 涉及算法 |
---|---|
强化学习策略梯度梳理1 - REINFORCE(附代码) | REINFORCE、REINFORCE with baseline |
强化学习策略梯度梳理2 - AC(附代码) | one-step AC、 QAC、 QAC with shared network |
强化学习策略梯度梳理3-SOTA 上 | PPO2 |
SOTA 中 | DDPG,TD3,SAC, SAC 离散动作 |
SOTA 下 | A2C, A3C |
- Rainbow
- HER
- VIN