Skip to content

Latest commit

 

History

History
52 lines (35 loc) · 4.21 KB

note.md

File metadata and controls

52 lines (35 loc) · 4.21 KB

内容に関するメモ

1 Overview

動的計画法と強化学習手法の対比に関する補足資料

Overviewの最後に動的計画法と強化学習の手法(価値反復,方策反復)の関連性が示唆されているが(動的計画法のアルゴリズムを、遷移確率に関する情報がないのでサンプルから学習させるものという形で理解できる)本書だけでは動的計画法に関する記述が短いので理解するのが難しいので、下記資料をザッと眺めると良いかもしれない。

平均コスト問題 (average cost problem)

Bertsekas and Tsitsklis (1996)には average cost per stage problem についての記述がある。 割引報酬和(or コストの和)の期待値を指標として最適化するのとは別の指標(基準)を用いた問題。 具体的には割引報酬和の期待値のときには

  1. 1より小さいの割引率を使う。
  2. 吸収状態がありそれ以降報酬(コスト)が与えられない。

のいずれかによって値が有限であることが保証されているが、適切な吸収状態がなかったり、割引をするのが適切でない問題もある。 そのため、各状態におけるコストの平均(の期待値)を指標とした問題が平均コスト問題である。

適応サンプリング (adaptive sampling)

この本ではたびたび適応サンプリングという言葉が登場するが、具体的な説明はないが、 下記のThompsonによるスライドは分かりやすい。 どの値をサンプリングするかを、過去のサンプリングの履歴に依存する形で依存して決定するアプローチ全体を指すという理解。 探索と活用のトレードオフを考えるアルゴリズムはこの枠組に入ると思われる。

2.2 Markov Decision Processes

最適符号化 (optimal coding) へのMDPの応用

情報源の発生情報量を見積もるためには、背後にある情報を生成する確率モデルを推定する必要があり、どのようにデータが生成されているかの一つの仮定としてMDPが使われる。

センサーネットワーク (sensor network) へのMDPの応用

ある基地局から別の基地局まで、他の基地局を経由しながら情報を適切に(短い距離で、失敗せずなど)送るためには動的計画法のような問題を解く必要がある、という理解。

ギャンブルの例の詳細

下記リンクでは、実際にギャンブラーが毎回の賭けに勝つ確率を既知(つまりモデルが既知)とした上で動的計画法(価値反復)によって最適方策を求めている。

3.2 Algorithms for large state spaces

タイルコーディングに関連した文献