cfr

Learn the basis of counterfactual regret minimization(CFR).

CFRはポーカーAIに使われているアルゴリズムである。

rps_submit.ipynb

FixedTrainerオブジェクトは相手がグー、パー、チョキをそれぞれ0.4, 0.3, 0.3の確率で出すとき、勝率を最大化するような戦略を計算するものである。計算の結果、最適解はグー、パー、チョキをそれぞれ0, 1, 0の確率で出すときである。

RPSTrainerオブジェクトは相手の出し手を等確率に設定した時、勝率を最大化するような戦略を計算するものである。計算の結果、こちらも1/3の等確率でグー、パー、チョキを出すと良いという結論に辿り着いた。

これは遊びファイルである。

クーンポーカーという簡略化されたポーカーを遊ぶこの時のナッシュ均衡解を求める

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
README.md		README.md
kuhn_poker.ipynb		kuhn_poker.ipynb
rps.ipynb		rps.ipynb
rps_submit.ipynb		rps_submit.ipynb