2010-09-29から1日間の記事一覧
とりあえず学習が上手く行ったケースですが、二つほど考えてます。 (1評価関数のまま)学習を並列化した上で、もっと深い探索で学習させてみる。 複数評価関数での合議にリトライ。 要するにシングルエンジンでの強さを求めるか、弱エンジンの強さはそこそ…
TDLeaf(λ)だとだんだん勾配が緩やかになる曲線状だったんですが、上のグラフ、すごく一直線です。 これってどんどん値が大きくなって、発散しちゃうかも。やだー、明日の朝が怖いデス。
とりあえず開発用マシンで走らせてる、5五将棋バージョンのパラメータ。 駒の価値の比率はまぁ妥当そうな感じなんですが、まだ収束した雰囲気が全く無いです。 これは、一晩走らせないと無理ぽ?
評価値計算でシグモイドを使う様にしたら、ちゃんと駒の価値がプラスになってくれました。 これだけじゃまだ強くなってるか不明ですが、数時間学習させてからsspあたりと連続対局してみます。
まず、行動価値関数(≒評価関数)の式は下記の通り。 ここで、Bは特徴量の数(次元数)、は特徴量、sはシグモイド関数(+α*1)で、下記の通り。gはゲイン。 次に、方策は下記の通り。 次に、は下記の通り計算出来る。なお、式中の// 2010/10/17 21:10修正 *…
expの計算で簡単にオーバーフローするし、かと言って多倍長演算は面倒そうだし。 とりあえず自前のアルゴリズムで探査率見つつ温度自動調整は出来てるから、当面それでいいや。楽だし。