ちょっと前から試しているTD法での棋譜からの学習ですが、どうにも上手く行ってないです。
チョコチョコとバグを潰して、多分ちゃんと想定した通りの動作をしているんですが、学習後のパラメータは弱いまま。
うーん、TD法で棋譜から学習するのは見切りをつけて、そろそろボナメソを実装すべき?
でもなぁ、棋譜からの学習も自己対戦での学習もTD法(ORその派生型)だと、構成が美しくて好みなんですが… うーん……
もうちょっと悩んで、踏ん切りついたらボナメソの実装を始めますか。実装前にもうちょっと検討すべき事もありますし。