GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

設定色々変えて試してみました

 とりあえず方策勾配法で4x4リバーシの片一方プレイヤーだけ学習が上手く行くのを目標にします。

 んで、比較対象としてTDLeaf(λ)の方で片一方だけ学習。結果、先手も後手も方策勾配法と変わらない結果(NG)になりました。

 それと、今まで方策勾配法では探索無しでやってたんですが、探索ありにしてテスト。こっちは、探索深さが6以上だとちゃんと収束するみたいです。

 つまり、序盤で探査した後に、ミスする事無くきっちり勝ちきれるなら、学習はちゃんと行くという訳で、探索無しで上手く行かないのはその辺が原因かなぁ…と。

 ただ、原因らしきものが発見出来たからと言って、すぐ対策が思い付かないのがつらいところ。どうしよっかなぁ。

 あ、それと先日書いた案はとりあえず保留。将棋に手をつけるのは時期尚早だと思うので。