プラン再考 - GA将？開発日記～王理のその先へ～

　加筆＆ちょっと優先順位を調整。

　ギャンブルまがいの「当たればデカいけど、成功確率低い」事もどんどんやって行きます。下手な鉄砲も数撃ちゃ当たる！！！

　その為の方策として、手間がかかるパラメータ調整は全部学習ルーチンに押し付けます。具体的には、評価関数・探索ルーチン・合議のパラメータですね。

全体の構成
- 評価関数は今年バージョンをベースに改良。
- 非線形の評価関数。
  - 駒割・王将の固さ・駒の働き等を飽和させる狙い。
- Softmax実現確率探索。
  - マルチスレッドでの並列探索も実装予定。
  - 解説は後日書きます。
- 12種類の評価関数を用いて多数決合議。
- クラスタ対応して、クラウドでサーバを借りる。
  - ノード内は並列探索、それを複数台束ねて合議。
- Ponder学習。
  - 対局中に現局面から対局を開始して学習する。
  - 現局面に対応した、適切な評価関数パラメータを学習させる狙い。
    - 例えば「５五の先手の角が攻防の要なので、その価値が高い」といった感じの事を認識させたい。
学習ルーチンはSR-cPGLeaf。
- 合議を前提とした学習。
- 非線形評価関数のパラメータ学習。
- Softmax実現確率探索のパラメータ学習。
- 合議クライアントの重み（票数）を学習で求める。

No.	項目	目標期日	成功確率	レーティング向上予測値
1	温度パラメータの調整	2014/05/15	0.8	+100
2	探索時の遷移確率を学習（評価関数パラメータは固定）	2014/06/15	0.75	+500
3	探索パラメータと評価関数パラメータの同時学習	2014/06/30	0.8	+100
4	並列探索	2014/07/31	0.9	+150
5	非線形評価関数	2014/08/31	0.5	+200
6	評価項目の追加（三駒関係etc）	2014/09/30	0.75	+100
7	合議学習（SR-cPGLeaf）	2014/11/30	0.3	+400
8	合議クライアントの重みを学習	2014/12/31	0.3	+100
9	クラウド対応	2015/01/31	0.75	+200
10	Ponder学習	2015/02/28	0.3	+100

　レーティングはAtom D510→クラウド（4コア×12台）での向上量を概算で出しました。

　全部成功するとRが1950アップ。現在のfloodgateの2週間Rが1400なので、トップに追い付け…る？

　ちなみに成功確率を積算すると0.3％。まぁ、宝くじで一等当てるよりは率が高いし、絶対不可能って感じではないですね。