GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

よく分からん

 4x4リバーシで実験中。

 まず、PGLeafでは1万〜1万2千局程度で正しく収束します。

 んで、自然TD学習だとどうかって言うと、学習(単位時間あたりの対局数)が遅いので1万局はなかなか実験出来ません。

 ただ、途中の誤差の減り方とか見てると、どうも時間かけてもダメっぽい感じはします。

 という訳で、問題切り分けも兼ねて、自然TD学習での将棋の学習を学習用マシンで開始。開発用マシンでは、リバーシの方を一晩走らせてみます。

 これで、明日朝には両方成功していると良いんですがねぇ…