GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

ソフトマックス方策実装&メタ強化学習開始

まずリバーシ用にソフトマックス方策を実装。εグリーディーよりは良さそうですが、4x4のリバーシでも最適解は発見出来ず。

以前に多碗バンディット問題で実験した感じでは、ソフトマックス方策はメタパラメータの少しの差で結果が大きく変わるので、手作業での調整は難しそうです。

という訳でメタ強化学習ありで動かしてみましたが…微妙。

こっちは「とりあえず動かしてみた」ってだけなので、明日にでもちゃんとログを見てみます。