GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

プランAの進捗状況

 プランAですが、本命は「モンテカルロサンプリングを用いて行動価値関数の勾配を求める」方式なんですが、とりあえず妥協して厳密に勾配を求める方式に変更。

 んで、Bootstrap部分は手を加えてないので正常動作。Q(λ)はまだバグ持ち…

 現在は三目並べモードで検証中ですが、Q(λ)の目標値をλ収益ではなく真の評価値*1にすると300局程度で収束するので、勾配計算は正しくてλ収益の計算にバグ有り、って可能性が高いです。

 という訳で、現在も引き続きテスト中。進捗、ヤバいです。

*1:完全読みした結果