ログ表示まわりを整理してみました - GA将？開発日記～王理のその先へ～

あっちこっちのオブジェクト*1に表示すべき情報があって、それをいちいち集めて回るのは手間がかかるので、その辺が楽になる様に。

んで、その修正はすぐに終わって、その後にログを見てみたんですが、どうも探査（色々な行動を試して、今より良い行動を探す事）のメリット・デメリットを理解出来てないのが悪いみたいです。

今のアルゴリズムだと、あるパラメータを使って対局した結果だけからそのパラメータの良し悪しを評価しているんですが、これだと探査をしても「敗けたから悪いパラメータだ」と判断するはずです。

ですが、実際には「そのパラメータを使うと敗けたけど、良い手の発見のきっかけになったので、長期的に見れば良いパラメータだ」と言うこともあり得るはずです。

という訳で、直近の目標はちゃんとメタ強化学習を実装する事ですね。Actor-Criticにすればその辺OKなはずです。多分。

*1:エージェントとか評価関数とか方策とか