Skip to content

Latest commit

 

History

History
118 lines (98 loc) · 12.4 KB

references.md

File metadata and controls

118 lines (98 loc) · 12.4 KB

参考文献へのリンクまとめ

1 Overview

3 Value prediction problems

  • Frank et al. (2008) Reinforcement Learning in the Presence of Rare Events ICML
    • estimating the failure probability of a large power grid と書いてあるが電力の話はしてない。 [TODO: 提案手法の内容を簡単に説明する] 実データへの応用として、非常に低い確率であるはあるが、経路が遮断されることを考慮に入れた通信ネットワークのプランニングへと応用をしている。

3.1.1 Tabular TD(0)

3.2.1 TD(λ) with function approximation

3.2.3 Least-squares methods

3.2.4 The choice of the function space

4.2.1 Online learning in bandits

4.2.3 Active learning in Markov Decision Processes

4.2.4 Online learning in Markov DecisionProcesses

4.4.2 Implementinganactor

5.1.0 Further reading

5.2.0 Applications