レア局面の検出・誘導機能は断念
http://d.hatena.ne.jp/Gasyou/20170116/1484545404
レア局面の検出がどうやっても上手く動いてくれないので、これは断念する事にしました。
んで、前にやっていたEBIE-EBベースのパラメータへのボーナス加算を修正して実験中。
前と変わったのは、On-PolicyからOff-Policyにしたのと、ボーナスの影響度の大きさの微調整、それから、一定対局数経過するごとにボーナスを0クリアする様にした3点。
最後の修正点は、局所最適解にハマった時にそこから抜け出す契機にならないかな、と期待して実装してみました。
多分、2〜3日で収束すると思うので、結果が出たらまた書きます。