ちょっとだけ進展有った - GA将？開発日記～王理のその先へ～

　学習方策と挙動方策を分けて学習するのは失敗しましたが、REINFORCEベースのPGLeafにエントロピー正則化をかけると割と良い感じでした。

　んで、単一エージェントだと一旦大きなマイナスが付いちゃったパラメータは、その後挽回する機会がなかなか無く、ズルズルと低下していく現象が発生。

　という訳で、前に実装した並列8連ガチャ*1をも一度実装。

　一晩回した感じだと、目標探査率（最善手以外の手を指す確率の目標値）を単一エージェントの場合の半分位にすると良さげなので、その設定で学習用マシンに投入しました。

　ちなみに、開発用マシンで目標探査率0.1の場合のグラフはこんな感じ。（縦軸のスケールはグラフごとに異なるので注意。）

　三駒関係・四駒関係のグラフはまぁ妥当かな、と思います。

　ただまぁ、100万局程度しか学習していないんで、まだまだ弱いですが。

　学習用マシンで3日位走らせれば、前に最高勝率を記録した時の750万局に届きそうなんで、そこが一つの目安になるかと考えています。

*1:複数評価関数のリーグ戦から学習する方式