GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

個々の駒の位置評価に対するQ学習の適用

 前にもブログに書いたか実装したかした覚えは有るんですが、見つからなかったので再度書いてみる。

 んで、やる事。例えば駒の位置評価*1を考える。

 この時、「先手2四歩の価値」は「max(先手2三歩の価値,先手2三と金の価値)」に近い(はず)。

 なので、パラメータ修正の勾配に「先手2四歩の価値」と「max(先手2三歩の価値,先手2三と金の価値)」の誤差を入れてやれば、駒の位置に応じた点数が滑らか〜に繋がってくれる(はず、多分)。

 んで、三駒関係*2に対しても、同様の操作を行えば、こっちも同様の効果が有る(はず)。

 問題はベースとする学習ルーチンですね。TDLeaf(λ)の方が相性良さそうですが、出来ればPGLeafでも実装した所。

 まぁ、現状PGLeafの方がやや強いので、こっちをベースに修正してみますか。

*1:三駒関係とかじゃなくて、単体の駒の位置評価の場合

*2:KKP,KPP