GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

ちょっとだけ進展有った

 学習方策と挙動方策を分けて学習するのは失敗しましたが、REINFORCEベースのPGLeafにエントロピー正則化をかけると割と良い感じでした。

 んで、単一エージェントだと一旦大きなマイナスが付いちゃったパラメータは、その後挽回する機会がなかなか無く、ズルズルと低下していく現象が発生。

 という訳で、前に実装した並列8連ガチャ*1をも一度実装。

 一晩回した感じだと、目標探査率(最善手以外の手を指す確率の目標値)を単一エージェントの場合の半分位にすると良さげなので、その設定で学習用マシンに投入しました。

 ちなみに、開発用マシンで目標探査率0.1の場合のグラフはこんな感じ。(縦軸のスケールはグラフごとに異なるので注意。)



 三駒関係・四駒関係のグラフはまぁ妥当かな、と思います。

 ただまぁ、100万局程度しか学習していないんで、まだまだ弱いですが。

 学習用マシンで3日位走らせれば、前に最高勝率を記録した時の750万局に届きそうなんで、そこが一つの目安になるかと考えています。

*1:複数評価関数のリーグ戦から学習する方式