リバーシでTDLeaf(λ)実装中
細々した事ばっかりであんまり書く意味無いかもしれませんが、書かないとダラダラしちゃうので書きます。
んで、完成時の構成はTDLeaf(λ)+ソフトマックス方策+線形の評価関数(使い回し)+メタ強化学習って感じを目標にしています。言語はJavaで書いて、将棋用は後でC++に移植します。
現時点の状況はTDLeaf(λ)の実装中。
とりあえず学習部分から作っていって、対局部分は学習部分が完成してから着手の予定。この順番だと、対局部分の作成時には学習で必要な情報が分かっているので、開発効率が良いとの判断。
メタ強化学習に関しては、状態と行動の対応付けの方法を検討する必要あり。実装まで1週間ほど時間があるので、その間に検討予定。