Learn the basis of counterfactual regret minimization(CFR).
CFRはポーカーAIに使われているアルゴリズムである。
FixedTrainerオブジェクトは相手がグー、パー、チョキをそれぞれ0.4, 0.3, 0.3の確率で出すとき、 勝率を最大化するような戦略を計算するものである。 計算の結果、最適解はグー、パー、チョキをそれぞれ0, 1, 0の確率で出すときである。
RPSTrainerオブジェクトは相手の出し手を等確率に設定した時、勝率を最大化するような戦略を計算するものである。 計算の結果、こちらも1/3の等確率でグー、パー、チョキを出すと良いという結論に辿り着いた。
これは遊びファイルである。
クーンポーカーという簡略化されたポーカーを遊ぶ この時のナッシュ均衡解を求める