GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

次回選手権までのロードマップ

開発日記 TODO

　まず最終的な学習ルーチンの構成は「TDLeaf(λ)＋Softmax方策＋DNN評価関数」とします。

　時間があればPGLeafにしたいのですが、流石にそこまでは無理そうです。

　んで、上記構成を実現する為にやるべき事。

DNN評価関数の実装。
- Convolutionは使用せずに、全結合層だけで。
- まずは一般的な関数近似でテストしてみる。
DeepTDLeaf(λ)の実装。
Tic-Tac-Toeの局面クラスの修正（盤の大きさを可変にする）。
Tic-Tac-Toeで盤の大きさを3x3から4x4、5x5…と大きくしていき、収束速度の差を見る。
Convolution Layerを入れてみて収束速度の比較実験。 ← ここまで正月休み中にやる。
リバーシ用のDNN評価関数の実装・学習実験。
将棋用のDNN評価関数の実装。
- このタイミングでDNNの構成も拡張する。
- Dropoutとかも使ってみたい。

　とりあえず、ここまでを3月中には完了したいですね。その先は後で考える事とします。