ちょっと実験。λを1.0にしてみる
http://d.hatena.ne.jp/mkomiya/20090711/1247243562
小宮さんとこの記事とかコメントでのやり取りでふと思いついて、λを0.9→1.0に変更してみるとどうだろうかと試してみます。
1.0にするとどうなるかと言うと、対局中に出現した局面の評価値の目標が「勝ったら+1、負けたら-1」になります。0.9だとその局面以降の評価値とか報酬とかでゴチャゴチャ計算する事になりますが、1.0だとえらい分かりやすい処理です。
んで、どういう効果を期待しているかと言うと、序盤〜中盤の学習がもうちょっとちゃんと出来る事。具体的に言うと、自陣にいる銀桂をちゃんと攻めるのに使える事。今はこれが出来てないのが勝率が伸びない主因だと考えています。
ただ、学習用マシンは忙しいので開発用マシンでプログラムを走らせときます。これだって2.66GHzでクアドコアなんで、十分現役はれるマシンですし。