GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2013-09-14から1日間の記事一覧

よく分からん

4x4リバーシで実験中。 まず、PGLeafでは1万〜1万2千局程度で正しく収束します。 んで、自然TD学習だとどうかって言うと、学習(単位時間あたりの対局数)が遅いので1万局はなかなか実験出来ません。 ただ、途中の誤差の減り方とか見てると、どうも時間かけ…

とりあえず三目並べはちゃんと収束

自然TD学習での自己対戦学習です。 んで、バグを一個取ったらあっさりと成功。 以下、学習時の条件。自分用メモなんで訳わかめだと思いますが、ご了承を。 学習率等の値は論文そのまま。ただし、βのみ0.99999に変更。 テーブル形式の評価関数。パラメータ数…