個々の駒の位置評価に対するQ学習の適用 - GA将？開発日記～王理のその先へ～

　前にもブログに書いたか実装したかした覚えは有るんですが、見つからなかったので再度書いてみる。

　んで、やる事。例えば駒の位置評価*1を考える。

　この時、「先手２四歩の価値」は「max(先手２三歩の価値,先手２三と金の価値)」に近い（はず）。

　なので、パラメータ修正の勾配に「先手２四歩の価値」と「max(先手２三歩の価値,先手２三と金の価値)」の誤差を入れてやれば、駒の位置に応じた点数が滑らか〜に繋がってくれる（はず、多分）。

　んで、三駒関係*2に対しても、同様の操作を行えば、こっちも同様の効果が有る（はず）。

　問題はベースとする学習ルーチンですね。TDLeaf(λ)の方が相性良さそうですが、出来ればPGLeafでも実装した所。

　まぁ、現状PGLeafの方がやや強いので、こっちをベースに修正してみますか。

*1:三駒関係とかじゃなくて、単体の駒の位置評価の場合