いい感じに行き詰ってまいりました
いや、全然よくないんですけどね orz
とりあえず方策勾配法+線形の評価関数で4x4のリバーシを解こうとして、色々やってます。
んで、細々とバグを潰してもダメ。パラメータ調整をしてみてもダメ。評価項目を追加してみてもダメ。
…次はどうしようかなぁ。
そうそう、「自然方策勾配法に基づくオフポリシー型強化学習法」っていう論文見つけました。
http://ci.nii.ac.jp/naid/110003234177
通常の方策勾配法はオンポリシーなんですが、これをオフポリシーに出来るそうです。
ただ、私の数少ない経験から考えると、オンポリシーでちゃんと動いてない物をオフポリシーにしても大して状況は改善しないと思うので、この論文読むのはもうちょっと先にします。