GA将?開発日記~原点回帰~

ネタ勢最強を目指して絶賛開発中。

次回選手権までのロードマップ

 まず最終的な学習ルーチンの構成は「TDLeaf(λ)+Softmax方策+DNN評価関数」とします。

 時間があればPGLeafにしたいのですが、流石にそこまでは無理そうです。

 んで、上記構成を実現する為にやるべき事。

  • DNN評価関数の実装。
    • Convolutionは使用せずに、全結合層だけで。
    • まずは一般的な関数近似でテストしてみる。
  • DeepTDLeaf(λ)の実装。
  • Tic-Tac-Toeの局面クラスの修正(盤の大きさを可変にする)。
  • Tic-Tac-Toeで盤の大きさを3x3から4x4、5x5…と大きくしていき、収束速度の差を見る。
  • Convolution Layerを入れてみて収束速度の比較実験。 ← ここまで正月休み中にやる。
  • リバーシ用のDNN評価関数の実装・学習実験。
  • 将棋用のDNN評価関数の実装。
    • このタイミングでDNNの構成も拡張する。
    • Dropoutとかも使ってみたい。

 とりあえず、ここまでを3月中には完了したいですね。その先は後で考える事とします。