個々の駒の位置評価に対するQ学習の適用
前にもブログに書いたか実装したかした覚えは有るんですが、見つからなかったので再度書いてみる。
んで、やる事。例えば駒の位置評価*1を考える。
この時、「先手2四歩の価値」は「max(先手2三歩の価値,先手2三と金の価値)」に近い(はず)。
なので、パラメータ修正の勾配に「先手2四歩の価値」と「max(先手2三歩の価値,先手2三と金の価値)」の誤差を入れてやれば、駒の位置に応じた点数が滑らか〜に繋がってくれる(はず、多分)。
んで、三駒関係*2に対しても、同様の操作を行えば、こっちも同様の効果が有る(はず)。
問題はベースとする学習ルーチンですね。TDLeaf(λ)の方が相性良さそうですが、出来ればPGLeafでも実装した所。
まぁ、現状PGLeafの方がやや強いので、こっちをベースに修正してみますか。