プランAの進捗状況 - GA将？開発日記～王理のその先へ～

　プランAですが、本命は「モンテカルロサンプリングを用いて行動価値関数の勾配を求める」方式なんですが、とりあえず妥協して厳密に勾配を求める方式に変更。

　んで、Bootstrap部分は手を加えてないので正常動作。Q(λ)はまだバグ持ち…

　現在は三目並べモードで検証中ですが、Q(λ)の目標値をλ収益ではなく真の評価値*1にすると300局程度で収束するので、勾配計算は正しくてλ収益の計算にバグ有り、って可能性が高いです。

　という訳で、現在も引き続きテスト中。進捗、ヤバいです。

*1:完全読みした結果