いい感じに行き詰ってまいりました - GA将？開発日記～王理のその先へ～

　いや、全然よくないんですけどね orz

　とりあえず方策勾配法＋線形の評価関数で4x4のリバーシを解こうとして、色々やってます。

　んで、細々とバグを潰してもダメ。パラメータ調整をしてみてもダメ。評価項目を追加してみてもダメ。

　…次はどうしようかなぁ。

　そうそう、「自然方策勾配法に基づくオフポリシー型強化学習法」っていう論文見つけました。

　通常の方策勾配法はオンポリシーなんですが、これをオフポリシーに出来るそうです。

　ただ、私の数少ない経験から考えると、オンポリシーでちゃんと動いてない物をオフポリシーにしても大して状況は改善しないと思うので、この論文読むのはもうちょっと先にします。