GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

2018-07-01から1ヶ月間の記事一覧

昨日の論文、アイデアは応用出来るかも

開発日記

http://d.hatena.ne.jp/Gasyou/20180710/1531215640 要するに「獲得した報酬が増えた→良いメタパラメータだった」「獲得した報酬が減った→悪いメタパラメータだった」って判断する訳ですから、Exploration Policyではなく通常のメタパラメータ*1の学習にも使…

Learning to Explore via Meta-Policy Gradient

後で読む

Learning to Explore via Meta-Policy Gradient ざっと読んだ感じだと Off-Policy学習*1と組み合わせるのが前提のメタ学習アルゴリズム。 Exploration Policyと呼ぶ方策を導入し、これを方策勾配法で学習する。通常の*2方策のパラメータ更新前後の予測報酬…

原因は分かってみればシンプルだった

開発日記

昨日書いた件ですが、「読みが正確になる→勝敗読み切りが早くなる→勝敗読み切り局面はBootstrappingしないので正しく学習出来なくなる」と言うのが原因でした。んで、勝敗読み切り局面もBootstrappingする様に修正したら、無事に正しく収束しました。ただ…

バグ修正したら挙動がおかしくなった話、する？

開発日記

え〜、プランAの方ですが、探索ルーチンにバグが有って、評価値を更新すべきなのにしていない部分がありました。で、ここをチョロっと修正。一行追加しただけです。 …したら、三目並べモードで収束しなくなりました＿|￣|○ 探索のログを見る限りでは読みは…