今後の方針
まずは二駒の絶対位置関係の評価を実装して、それで方策勾配法(PGLeaf)を使って学習させる。
んで、それと並行してバックアッププランとしてDeep Learningの評価関数を実装。こっちをTDLeaf(λ)で学習させる予定。
最終的に、強かった方を選手権に出すって方針で。
ただ、強化学習+ニューラルネットって構成は鬼門らしいんで、ちゃんと動くかちと不安。まぁ、どっちか一つちゃんと動けば良いから、両方共頑張ってみよう。
まずは二駒の絶対位置関係の評価を実装して、それで方策勾配法(PGLeaf)を使って学習させる。
んで、それと並行してバックアッププランとしてDeep Learningの評価関数を実装。こっちをTDLeaf(λ)で学習させる予定。
最終的に、強かった方を選手権に出すって方針で。
ただ、強化学習+ニューラルネットって構成は鬼門らしいんで、ちゃんと動くかちと不安。まぁ、どっちか一つちゃんと動けば良いから、両方共頑張ってみよう。