自然TD学習での自己対戦学習です。
んで、バグを一個取ったらあっさりと成功。
以下、学習時の条件。自分用メモなんで訳わかめだと思いますが、ご了承を。
- 学習率等の値は論文そのまま。ただし、βのみ0.99999に変更。
- テーブル形式の評価関数。パラメータ数は1万9千。
- αwの補正無しだと、8千〜1万8千局程度で収束。
- αwをmax(0.2,pi)で補正すると、2千〜4千局で収束。
ただ、4x4リバーシはまだ収束してくれないんで、どっかバグってる模様。
リバーシ固有のバグか、線形の評価関数を使っている関係でのバグかは判断付いていません。
つー訳で、もうちょっと頑張ってデバッグしてみます。