DQNを実装して5五将棋で学習させてみたんですが、TD誤差が一向に減らないという問題が有って、これは一旦保留。
んで、表題の手法のコード(前に書いた)を引っ張り出して来て、テスト&デバッグ中。
やる事はシンプルで、評価関数インスタンスを多数生成し、それらのリーグ戦からPGLeafで学習するというもの。
実戦の対局用には、全評価関数の平均値を取ったパラメータを使用します。
効果としては、アンサンブル学習の一種であるバギングと似た作用があるはずです。
とりあえず、現状では一番見込みがある(と思っている)手法なので、しばらくはこれをやってみます。