設定色々変えて試してみました
とりあえず方策勾配法で4x4リバーシの片一方プレイヤーだけ学習が上手く行くのを目標にします。
んで、比較対象としてTDLeaf(λ)の方で片一方だけ学習。結果、先手も後手も方策勾配法と変わらない結果(NG)になりました。
それと、今まで方策勾配法では探索無しでやってたんですが、探索ありにしてテスト。こっちは、探索深さが6以上だとちゃんと収束するみたいです。
つまり、序盤で探査した後に、ミスする事無くきっちり勝ちきれるなら、学習はちゃんと行くという訳で、探索無しで上手く行かないのはその辺が原因かなぁ…と。
ただ、原因らしきものが発見出来たからと言って、すぐ対策が思い付かないのがつらいところ。どうしよっかなぁ。
あ、それと先日書いた案はとりあえず保留。将棋に手をつけるのは時期尚早だと思うので。