ログ表示まわりを整理してみました
あっちこっちのオブジェクト*1に表示すべき情報があって、それをいちいち集めて回るのは手間がかかるので、その辺が楽になる様に。
んで、その修正はすぐに終わって、その後にログを見てみたんですが、どうも探査(色々な行動を試して、今より良い行動を探す事)のメリット・デメリットを理解出来てないのが悪いみたいです。
今のアルゴリズムだと、あるパラメータを使って対局した結果だけからそのパラメータの良し悪しを評価しているんですが、これだと探査をしても「敗けたから悪いパラメータだ」と判断するはずです。
ですが、実際には「そのパラメータを使うと敗けたけど、良い手の発見のきっかけになったので、長期的に見れば良いパラメータだ」と言うこともあり得るはずです。
という訳で、直近の目標はちゃんとメタ強化学習を実装する事ですね。Actor-Criticにすればその辺OKなはずです。多分。
*1:エージェントとか評価関数とか方策とか