2018-08-08 プランAの進捗状況 開発日記 プランAですが、本命は「モンテカルロサンプリングを用いて行動価値関数の勾配を求める」方式なんですが、とりあえず妥協して厳密に勾配を求める方式に変更。 んで、Bootstrap部分は手を加えてないので正常動作。Q(λ)はまだバグ持ち… 現在は三目並べモードで検証中ですが、Q(λ)の目標値をλ収益ではなく真の評価値*1にすると300局程度で収束するので、勾配計算は正しくてλ収益の計算にバグ有り、って可能性が高いです。 という訳で、現在も引き続きテスト中。進捗、ヤバいです。 *1:完全読みした結果