GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

プラン再考

 加筆&ちょっと優先順位を調整。

コンセプト

 ギャンブルまがいの「当たればデカいけど、成功確率低い」事もどんどんやって行きます。下手な鉄砲も数撃ちゃ当たる!!!

 その為の方策として、手間がかかるパラメータ調整は全部学習ルーチンに押し付けます。具体的には、評価関数・探索ルーチン・合議のパラメータですね。

グランドデザイン

  • 全体の構成
    • 評価関数は今年バージョンをベースに改良。
    • 非線形の評価関数。
      • 駒割・王将の固さ・駒の働き等を飽和させる狙い。
    • Softmax実現確率探索。
      • マルチスレッドでの並列探索も実装予定。
      • 解説は後日書きます。
    • 12種類の評価関数を用いて多数決合議。
    • クラスタ対応して、クラウドでサーバを借りる。
      • ノード内は並列探索、それを複数台束ねて合議。
    • Ponder学習。
      • 対局中に現局面から対局を開始して学習する。
      • 現局面に対応した、適切な評価関数パラメータを学習させる狙い。
        • 例えば「5五の先手の角が攻防の要なので、その価値が高い」といった感じの事を認識させたい。
  • 学習ルーチンはSR-cPGLeaf。
    • 合議を前提とした学習。
    • 非線形評価関数のパラメータ学習。
    • Softmax実現確率探索のパラメータ学習。
    • 合議クライアントの重み(票数)を学習で求める。

タスク

No. 項目 目標期日 成功確率 レーティング向上予測値
1 温度パラメータの調整 2014/05/15 0.8 +100
2 探索時の遷移確率を学習(評価関数パラメータは固定) 2014/06/15 0.75 +500
3 探索パラメータと評価関数パラメータの同時学習 2014/06/30 0.8 +100
4 並列探索 2014/07/31 0.9 +150
5 非線形評価関数 2014/08/31 0.5 +200
6 評価項目の追加(三駒関係etc) 2014/09/30 0.75 +100
7 合議学習(SR-cPGLeaf) 2014/11/30 0.3 +400
8 合議クライアントの重みを学習 2014/12/31 0.3 +100
9 クラウド対応 2015/01/31 0.75 +200
10 Ponder学習 2015/02/28 0.3 +100

まとめ

 レーティングはAtom D510→クラウド(4コア×12台)での向上量を概算で出しました。

 全部成功するとRが1950アップ。現在のfloodgateの2週間Rが1400なので、トップに追い付け…る?

 ちなみに成功確率を積算すると0.3%。まぁ、宝くじで一等当てるよりは率が高いし、絶対不可能って感じではないですね。