ちょっとだけ進展有った
学習方策と挙動方策を分けて学習するのは失敗しましたが、REINFORCEベースのPGLeafにエントロピー正則化をかけると割と良い感じでした。
んで、単一エージェントだと一旦大きなマイナスが付いちゃったパラメータは、その後挽回する機会がなかなか無く、ズルズルと低下していく現象が発生。
という訳で、前に実装した並列8連ガチャ*1をも一度実装。
一晩回した感じだと、目標探査率(最善手以外の手を指す確率の目標値)を単一エージェントの場合の半分位にすると良さげなので、その設定で学習用マシンに投入しました。
ちなみに、開発用マシンで目標探査率0.1の場合のグラフはこんな感じ。(縦軸のスケールはグラフごとに異なるので注意。)
三駒関係・四駒関係のグラフはまぁ妥当かな、と思います。
ただまぁ、100万局程度しか学習していないんで、まだまだ弱いですが。
学習用マシンで3日位走らせれば、前に最高勝率を記録した時の750万局に届きそうなんで、そこが一つの目安になるかと考えています。
*1:複数評価関数のリーグ戦から学習する方式