2008-10-05 ソフトマックス方策実装&メタ強化学習開始 開発日記 まずリバーシ用にソフトマックス方策を実装。εグリーディーよりは良さそうですが、4x4のリバーシでも最適解は発見出来ず。 以前に多碗バンディット問題で実験した感じでは、ソフトマックス方策はメタパラメータの少しの差で結果が大きく変わるので、手作業での調整は難しそうです。 という訳でメタ強化学習ありで動かしてみましたが…微妙。 こっちは「とりあえず動かしてみた」ってだけなので、明日にでもちゃんとログを見てみます。