リバーシでQ(λ)が動いたっぽい - GA将？開発日記～王理のその先へ～

　あくまで“ぽい”だけですが。一晩実験してみないと正確な結果は分かりません。

　んで、結構苦労しました。先手と後手が評価関数を共有しているのですが、複数回の学習のたびに毎回評価関数をロックしているとNGで、全部まとめてロックしないと上手く動かない感じです。

　多分、どちらも対局終了後に学習するので、今まで出ていなかった*1問題が表面化したのでしょう。

　んで、今λを色々変えて実験中。上手く動くといいのですが・・・

*1:今までは一手指すたびに学習していたので、先手と後手でタイミングがずれていた