GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

リバーシでTDLeaf(λ)実装中

細々した事ばっかりであんまり書く意味無いかもしれませんが、書かないとダラダラしちゃうので書きます。

んで、完成時の構成はTDLeaf(λ)+ソフトマックス方策+線形の評価関数(使い回し)+メタ強化学習って感じを目標にしています。言語はJavaで書いて、将棋用は後でC++に移植します。

現時点の状況はTDLeaf(λ)の実装中。

とりあえず学習部分から作っていって、対局部分は学習部分が完成してから着手の予定。この順番だと、対局部分の作成時には学習で必要な情報が分かっているので、開発効率が良いとの判断。

メタ強化学習に関しては、状態と行動の対応付けの方法を検討する必要あり。実装まで1週間ほど時間があるので、その間に検討予定。