分からん
ソースを見直してみたんですが、特に怪しい所も無く成果ゼロ。
明日は会社の忘年会、明後日は一日かけて部屋の掃除&本棚の整理の予定で開発が二日間止まるので、その間は別の実験をする事に。
やろうとしているのは単純で、ε*1を0にしてちゃんと学習するかの確認。
今まで動かした感じだと、一局ごとに学習しているのでεを0にしても同じ手順の対局が続く事は無さそうと言うのが私の予想。
で、実際そうなるかどうか確認の為に実験してみる事にします。
それから、Releaseモードでもアサーションを有効にしていたのを、一時的に無効に。これで少しは速くなる筈。
もっとも、mpnが改善されていない状況では焼け石に水なんですが。
*1:ランダムに行動する確率