awesome-reinforcement-learning

强化学习的相关学习资源、链接。

本仓库含有强化学习最基础的实现，和部分强化学习经典书籍资源。

强化学习各个代码实现，相对于网络上其它实现最大的优势在于算法实现的框架遵循最简洁的原则，不同算法之间的实现差异只体现在算法最核心的不同点。能够非常快速地帮助初学者了解各个算法之间的差异。

网址教程资源

教程网址

Book

Video Course

博客网址

领域专家

Awesome

Algorithm Repos

强化学习实战资源

Implementation of Algorithms

Project

论文

DQN-arxiv (Deep Q-Networks ): Mnih et al, 2013
- DQN-nature(Deep Q-Network ); Mnih et al, 2015
- Double DQN (Double Q Network) : Hasselt et al, 2015
- Dueling DQN (Duling Q Network) : Ziyu Wang et al, 2015
- QR-DQN (Quantile Regression DQN): Dabney et al, 2017
Alpha Go(Mastering the game of Go with deep neural networks and tree search)
- AlphaZero-arxiv (Mastering Chess and Shogi by Self-Play) :Silver et al, 2017
- AlphaZero-nature (Go without human knowledge) :Silver et al, 2017
SAC (Off-Policy Maximum Entropy): Haarnoja et al, 2018
- SAC (Algorithms and Applications) : Haarnoja, et al 2018
A2C / A3C (Asynchronous Advantage Actor-Critic): Mnih et al, 2016
PPO (Proximal Policy Optimization): Schulman et al, 2017
TRPO (Trust Region Policy Optimization): Schulman et al, 2015
DPG (Deterministic Policy Gradient) : DavidSilver et al, 2014
DDPG (Deep Deterministic Policy Gradient): Lillicrap et al, 2015
TD3 (Twin Delayed DDPG): Fujimoto et al, 2018
NAF (Normalized adantage functions) : ShixiangGu et al, 2016
C51 (Categorical 51-Atom DQN): Bellemare et al, 2017
HER (Hindsight Experience Replay): Andrychowicz et al, 2017
World Models Ha and Schmidhuber, 2018
I2A (Imagination-Augmented Agents): Weber et al, 2017
MBMF (Model-Based RL with Model-Free Fine-Tuning): Nagabandi et al, 2017
MBVE (Model-Based Value Expansion): Feinberg et al, 2018
PathNet(Evolution Channels Gradient Descent): Fernando et al, 2017
plannet(Learning Latent Dynamics) : Hafner, et al, 2018
TCN (Time-Contrastive Networks):Sermanet, et al, 2017
Reinforcement and Imitation Learning : Yuke Zhu†, et al 2018
Prioritized experience replay:Schaul, et al 2015
Policy distillation : Rusu, et al 2015
Unifying Count-Based Exploration and Intrinsic Motivation : Bellemare, et al 2015
Incentivizing Exploration In Reinforcement Learning With Deep Predictive Models : Stadie, et al 2015
Action-Conditional Video Prediction using Deep Networks in Atari Games : JunhyukOh, et al 2015
Control of Memory, Active Perception, and Action in Minecraft : JunhyukOh, et al 2015

Name		Name	Last commit message	Last commit date
Latest commit History 58 Commits
chap01 cross entropy method		chap01 cross entropy method
chap02 Tabular learning		chap02 Tabular learning
chap03 DQN Series		chap03 DQN Series
chap04 Policy Gradient		chap04 Policy Gradient
chap05 Actor Critic		chap05 Actor Critic
chap06 DDPG		chap06 DDPG
chap07 PPO		chap07 PPO
chap10 A2C		chap10 A2C
强化学习与智能控制相关书籍		强化学习与智能控制相关书籍
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

awesome-reinforcement-learning

网址教程资源

教程网址

Book

Video Course

博客网址

领域专家

Awesome

Algorithm Repos

强化学习实战资源

Implementation of Algorithms

Project

论文

About

Releases

Packages

Languages

License

tinyzqh/awesome-reinforcement-learning

Folders and files

Latest commit

History

Repository files navigation

awesome-reinforcement-learning

网址教程资源

教程网址

Book

Video Course

博客网址

领域专家

Awesome

Algorithm Repos

强化学习实战资源

Implementation of Algorithms

Project

论文

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages