GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

いい感じに行き詰ってまいりました

 いや、全然よくないんですけどね orz

 とりあえず方策勾配法+線形の評価関数で4x4のリバーシを解こうとして、色々やってます。

 んで、細々とバグを潰してもダメ。パラメータ調整をしてみてもダメ。評価項目を追加してみてもダメ。

 …次はどうしようかなぁ。

 そうそう、「自然方策勾配法に基づくオフポリシー型強化学習法」っていう論文見つけました。

  http://ci.nii.ac.jp/naid/110003234177

 通常の方策勾配法はオンポリシーなんですが、これをオフポリシーに出来るそうです。

 ただ、私の数少ない経験から考えると、オンポリシーでちゃんと動いてない物をオフポリシーにしても大して状況は改善しないと思うので、この論文読むのはもうちょっと先にします。