GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

方策勾配法の修正中

 とりあえず最小分散ベースラインの計算が怪しかったので、その辺の細かい修正とか、パラメータを調整して良さそうな感じの値を探したりとか。

 でも、相変わらずな結果で、三目並べや4x4のリバーシでもちゃんとした結果にならなかったりします。

 あと、パラメータのセーブ・ロードまわりが大丈夫か確かめる為に、学習打ち切り後にそのまま(同一プロセス内で、学習に使った評価関数をそのまま使用して)連続対局するコードを書いたりとか。もしこれで勝率が上がる様なら、セーブ・ロード関連のバグ確定です。