GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

来年に向けてのプラン

 鬼の笑う来年の話。ひとまず完成形はこんな形。

 昨日一昨日対局した感じだと、探索と評価関数の両方を頑張らないと上には行けないので、どっちも学習で何とかします。

 それから、マシンパワー(並列性)は基本的には合議で活用する方向です。

グランドデザイン

  • 全体の構成
    • 評価関数は今年バージョンをベースに改良。
    • 一部非線形の評価関数。
      • 駒割・王将の固さ・駒の働き等を飽和させる狙い。
    • Softmax実現確率探索(仮称)。
      • マルチスレッドでの並列探索も実装予定。
      • 解説は後日書きます。
    • 12個の評価関数を用いて多数決合議。
    • クラスタ対応して、クラウドでサーバを借りる。
      • ノード内は並列探索、それを複数台束ねて合議。
    • Ponder学習。
      • 対局中に現局面から対局を開始して学習する。
      • 現局面に対応した、適切な評価関数パラメータを学習させる狙い。
        • 例えば「5五の先手の角が攻防の要なので、その価値が高い」といった感じの事を認識させたい。
  • 学習ルーチンはSR-cPGLeaf。
    • 合議を前提とした学習。
    • 一部非線形の評価関数のパラメータ学習。
    • Softmax実現確率探索(仮称)のパラメータ学習。
    • 合議クライアントの重み(票数)を学習で求める。

 んで、完成させる為のタスクはこんな感じ。上ほど優先度【高】です。

タスク

  1. 温度パラメータの調整(ランダムさを増す)。
  2. 探索時の遷移確率を学習。(評価関数パラメータは固定。)
  3. 探索パラメータと評価関数パラメータの同時学習。
  4. 一部非線形の評価関数。
  5. 評価項目の追加(三駒関係etc)。←秋の電王トーナメントまでにここまでやりたい。
  6. 合議学習(SR-cPGLeaf)。
  7. 合議クライアントの重みを学習。
  8. クラウド対応。
  9. 並列探索。
  10. Ponder学習。

 非常にざっくりしたプランですが、大体こんな感じです。