リバーシでTDLeaf(λ)実装中 - GA将？開発日記～王理のその先へ～

細々した事ばっかりであんまり書く意味無いかもしれませんが、書かないとダラダラしちゃうので書きます。

んで、完成時の構成はTDLeaf(λ)＋ソフトマックス方策＋線形の評価関数（使い回し）＋メタ強化学習って感じを目標にしています。言語はJavaで書いて、将棋用は後でC++に移植します。

現時点の状況はTDLeaf(λ)の実装中。

とりあえず学習部分から作っていって、対局部分は学習部分が完成してから着手の予定。この順番だと、対局部分の作成時には学習で必要な情報が分かっているので、開発効率が良いとの判断。

メタ強化学習に関しては、状態と行動の対応付けの方法を検討する必要あり。実装まで1週間ほど時間があるので、その間に検討予定。