GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

リバーシでQ(λ)が動いたっぽい

 あくまで“ぽい”だけですが。一晩実験してみないと正確な結果は分かりません。

 んで、結構苦労しました。先手と後手が評価関数を共有しているのですが、複数回の学習のたびに毎回評価関数をロックしているとNGで、全部まとめてロックしないと上手く動かない感じです。

 多分、どちらも対局終了後に学習するので、今まで出ていなかった*1問題が表面化したのでしょう。

 んで、今λを色々変えて実験中。上手く動くといいのですが・・・

*1:今までは一手指すたびに学習していたので、先手と後手でタイミングがずれていた