GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2010-09-29から1日間の記事一覧

明日からの予定、どうしよう?

とりあえず学習が上手く行ったケースですが、二つほど考えてます。 (1評価関数のまま)学習を並列化した上で、もっと深い探索で学習させてみる。 複数評価関数での合議にリトライ。 要するにシングルエンジンでの強さを求めるか、弱エンジンの強さはそこそ…

と言うか、上のグラフおかしくね?

TDLeaf(λ)だとだんだん勾配が緩やかになる曲線状だったんですが、上のグラフ、すごく一直線です。 これってどんどん値が大きくなって、発散しちゃうかも。やだー、明日の朝が怖いデス。

うがー、まだ収束しねー

とりあえず開発用マシンで走らせてる、5五将棋バージョンのパラメータ。 駒の価値の比率はまぁ妥当そうな感じなんですが、まだ収束した雰囲気が全く無いです。 これは、一晩走らせないと無理ぽ?

よっしゃァ!

評価値計算でシグモイドを使う様にしたら、ちゃんと駒の価値がプラスになってくれました。 これだけじゃまだ強くなってるか不明ですが、数時間学習させてからsspあたりと連続対局してみます。

評価値の計算式を変えるんで、方策勾配法の式を再計算

まず、行動価値関数(≒評価関数)の式は下記の通り。 ここで、Bは特徴量の数(次元数)、は特徴量、sはシグモイド関数(+α*1)で、下記の通り。gはゲイン。 次に、方策は下記の通り。 次に、は下記の通り計算出来る。なお、式中の// 2010/10/17 21:10修正 *…

方策勾配法で温度調整するの、やめそうかな

expの計算で簡単にオーバーフローするし、かと言って多倍長演算は面倒そうだし。 とりあえず自前のアルゴリズムで探査率見つつ温度自動調整は出来てるから、当面それでいいや。楽だし。