次回選手権までのロードマップ
まず最終的な学習ルーチンの構成は「TDLeaf(λ)+Softmax方策+DNN評価関数」とします。
時間があればPGLeafにしたいのですが、流石にそこまでは無理そうです。
んで、上記構成を実現する為にやるべき事。
- DNN評価関数の実装。
- Convolutionは使用せずに、全結合層だけで。
- まずは一般的な関数近似でテストしてみる。
- DeepTDLeaf(λ)の実装。
- Tic-Tac-Toeの局面クラスの修正(盤の大きさを可変にする)。
- Tic-Tac-Toeで盤の大きさを3x3から4x4、5x5…と大きくしていき、収束速度の差を見る。
- Convolution Layerを入れてみて収束速度の比較実験。 ← ここまで正月休み中にやる。
- リバーシ用のDNN評価関数の実装・学習実験。
- 将棋用のDNN評価関数の実装。
- このタイミングでDNNの構成も拡張する。
- Dropoutとかも使ってみたい。
とりあえず、ここまでを3月中には完了したいですね。その先は後で考える事とします。