レア局面の検出・誘導機能は断念 - GA将？開発日記～王理のその先へ～

　レア局面の検出がどうやっても上手く動いてくれないので、これは断念する事にしました。

　んで、前にやっていたEBIE-EBベースのパラメータへのボーナス加算を修正して実験中。

　前と変わったのは、On-PolicyからOff-Policyにしたのと、ボーナスの影響度の大きさの微調整、それから、一定対局数経過するごとにボーナスを0クリアする様にした3点。

　最後の修正点は、局所最適解にハマった時にそこから抜け出す契機にならないかな、と期待して実装してみました。

　多分、2〜3日で収束すると思うので、結果が出たらまた書きます。