DRL baseline

目前主要是一些单智能体深度强化学习方法的复现

学生习作，以大神sutton的书和周博磊的课程为线索复现

目前已完成的部分包括：

CSDN 地址	涉及算法
强化学习策略梯度梳理1 - REINFORCE（附代码）	REINFORCE、REINFORCE with baseline
强化学习策略梯度梳理2 - AC（附代码）	one-step AC、 QAC、 QAC with shared network
强化学习策略梯度梳理3-SOTA 上	PPO2
SOTA 中	DDPG，TD3，SAC, SAC 离散动作
SOTA 下	A2C, A3C

Name		Name	Last commit message	Last commit date
Latest commit History 32 Commits
.idea		.idea
alg		alg
mem		mem
README.md		README.md
__init__.py		__init__.py
run.py		run.py
run_PPO2.py		run_PPO2.py
run_a3c.py		run_a3c.py
run_continue_action.py		run_continue_action.py