2007-10-18 リバーシでQ(λ)が動いたっぽい 開発日記 あくまで“ぽい”だけですが。一晩実験してみないと正確な結果は分かりません。 んで、結構苦労しました。先手と後手が評価関数を共有しているのですが、複数回の学習のたびに毎回評価関数をロックしているとNGで、全部まとめてロックしないと上手く動かない感じです。 多分、どちらも対局終了後に学習するので、今まで出ていなかった*1問題が表面化したのでしょう。 んで、今λを色々変えて実験中。上手く動くといいのですが・・・ *1:今までは一手指すたびに学習していたので、先手と後手でタイミングがずれていた