GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

明日からのおおざっぱな予定

自己対戦でのBonanza Methodはやりません。強化学習で行きます。今まで多少なりとも強化学習での経験を得られたんで、それを捨てるのはもったいないですから。

まずはソフトマックス手法*1を試してみて、後は出たとこ勝負。

メタ強化学習は出来るだけ早期にやる。

強化学習エージェント部分は一から作り直し。修正項目は下記の通り。

  • エージェントと方策の分離。
  • メタ強化学習への対応。
  • 報酬の扱いを修正。対局途中での報酬もちゃんと考慮する。

*1:評価値の高い手ほど高確率で指す