2013-09-14から1日間の記事一覧

よく分からん

開発日記

4x4リバーシで実験中。まず、PGLeafでは1万〜1万2千局程度で正しく収束します。んで、自然TD学習だとどうかって言うと、学習（単位時間あたりの対局数）が遅いので1万局はなかなか実験出来ません。ただ、途中の誤差の減り方とか見てると、どうも時間かけ…

開発日記

自然TD学習での自己対戦学習です。んで、バグを一個取ったらあっさりと成功。以下、学習時の条件。自分用メモなんで訳わかめだと思いますが、ご了承を。学習率等の値は論文そのまま。ただし、βのみ0.99999に変更。テーブル形式の評価関数。パラメータ数…