設定色々変えて試してみました - GA将？開発日記～王理のその先へ～

　とりあえず方策勾配法で4x4リバーシの片一方プレイヤーだけ学習が上手く行くのを目標にします。

　んで、比較対象としてTDLeaf(λ)の方で片一方だけ学習。結果、先手も後手も方策勾配法と変わらない結果（NG）になりました。

　それと、今まで方策勾配法では探索無しでやってたんですが、探索ありにしてテスト。こっちは、探索深さが6以上だとちゃんと収束するみたいです。

　つまり、序盤で探査した後に、ミスする事無くきっちり勝ちきれるなら、学習はちゃんと行くという訳で、探索無しで上手く行かないのはその辺が原因かなぁ…と。

　ただ、原因らしきものが発見出来たからと言って、すぐ対策が思い付かないのがつらいところ。どうしよっかなぁ。

　あ、それと先日書いた案はとりあえず保留。将棋に手をつけるのは時期尚早だと思うので。