プラン再考
加筆&ちょっと優先順位を調整。
コンセプト
ギャンブルまがいの「当たればデカいけど、成功確率低い」事もどんどんやって行きます。下手な鉄砲も数撃ちゃ当たる!!!
その為の方策として、手間がかかるパラメータ調整は全部学習ルーチンに押し付けます。具体的には、評価関数・探索ルーチン・合議のパラメータですね。
グランドデザイン
- 全体の構成
- 学習ルーチンはSR-cPGLeaf。
- 合議を前提とした学習。
- 非線形評価関数のパラメータ学習。
- Softmax実現確率探索のパラメータ学習。
- 合議クライアントの重み(票数)を学習で求める。
タスク
No. | 項目 | 目標期日 | 成功確率 | レーティング向上予測値 |
---|---|---|---|---|
1 | 温度パラメータの調整 | 2014/05/15 | 0.8 | +100 |
2 | 探索時の遷移確率を学習(評価関数パラメータは固定) | 2014/06/15 | 0.75 | +500 |
3 | 探索パラメータと評価関数パラメータの同時学習 | 2014/06/30 | 0.8 | +100 |
4 | 並列探索 | 2014/07/31 | 0.9 | +150 |
5 | 非線形評価関数 | 2014/08/31 | 0.5 | +200 |
6 | 評価項目の追加(三駒関係etc) | 2014/09/30 | 0.75 | +100 |
7 | 合議学習(SR-cPGLeaf) | 2014/11/30 | 0.3 | +400 |
8 | 合議クライアントの重みを学習 | 2014/12/31 | 0.3 | +100 |
9 | クラウド対応 | 2015/01/31 | 0.75 | +200 |
10 | Ponder学習 | 2015/02/28 | 0.3 | +100 |