GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2018-07-01から1ヶ月間の記事一覧

昨日の論文、アイデアは応用出来るかも

http://d.hatena.ne.jp/Gasyou/20180710/1531215640 要するに「獲得した報酬が増えた→良いメタパラメータだった」「獲得した報酬が減った→悪いメタパラメータだった」って判断する訳ですから、Exploration Policyではなく通常のメタパラメータ*1の学習にも使…

Learning to Explore via Meta-Policy Gradient

Learning to Explore via Meta-Policy Gradient ざっと読んだ感じだと Off-Policy学習*1と組み合わせるのが前提のメタ学習アルゴリズム。 Exploration Policyと呼ぶ方策を導入し、これを方策勾配法で学習する。 通常の*2方策のパラメータ更新前後の予測報酬…

原因は分かってみればシンプルだった

昨日書いた件ですが、「読みが正確になる→勝敗読み切りが早くなる→勝敗読み切り局面はBootstrappingしないので正しく学習出来なくなる」と言うのが原因でした。 んで、勝敗読み切り局面もBootstrappingする様に修正したら、無事に正しく収束しました。 ただ…

バグ修正したら挙動がおかしくなった話、する?

え〜、プランAの方ですが、探索ルーチンにバグが有って、評価値を更新すべきなのにしていない部分がありました。 で、ここをチョロっと修正。一行追加しただけです。 …したら、三目並べモードで収束しなくなりました _| ̄|○ 探索のログを見る限りでは読みは…