GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

今後の方針

 まずは二駒の絶対位置関係の評価を実装して、それで方策勾配法(PGLeaf)を使って学習させる。

 んで、それと並行してバックアッププランとしてDeep Learningの評価関数を実装。こっちをTDLeaf(λ)で学習させる予定。

 最終的に、強かった方を選手権に出すって方針で。

 ただ、強化学習ニューラルネットって構成は鬼門らしいんで、ちゃんと動くかちと不安。まぁ、どっちか一つちゃんと動けば良いから、両方共頑張ってみよう。