鬼の笑う来年の話。ひとまず完成形はこんな形。
昨日一昨日対局した感じだと、探索と評価関数の両方を頑張らないと上には行けないので、どっちも学習で何とかします。
それから、マシンパワー(並列性)は基本的には合議で活用する方向です。
グランドデザイン
- 全体の構成
- 評価関数は今年バージョンをベースに改良。
- 一部非線形の評価関数。
- Softmax実現確率探索(仮称)。
- マルチスレッドでの並列探索も実装予定。
- 解説は後日書きます。
- 12個の評価関数を用いて多数決合議。
- クラスタ対応して、クラウドでサーバを借りる。
- Ponder学習。
- 対局中に現局面から対局を開始して学習する。
- 現局面に対応した、適切な評価関数パラメータを学習させる狙い。
- 例えば「5五の先手の角が攻防の要なので、その価値が高い」といった感じの事を認識させたい。
- 学習ルーチンはSR-cPGLeaf。
- 合議を前提とした学習。
- 一部非線形の評価関数のパラメータ学習。
- Softmax実現確率探索(仮称)のパラメータ学習。
- 合議クライアントの重み(票数)を学習で求める。
んで、完成させる為のタスクはこんな感じ。上ほど優先度【高】です。
タスク
- 温度パラメータの調整(ランダムさを増す)。
- 探索時の遷移確率を学習。(評価関数パラメータは固定。)
- 探索パラメータと評価関数パラメータの同時学習。
- 一部非線形の評価関数。
- 評価項目の追加(三駒関係etc)。←秋の電王トーナメントまでにここまでやりたい。
- 合議学習(SR-cPGLeaf)。
- 合議クライアントの重みを学習。
- クラウド対応。
- 並列探索。
- Ponder学習。
非常にざっくりしたプランですが、大体こんな感じです。