GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

今年の方針

開発日記

　もう日付変わっちゃいましたが、一年の計は元旦にありという事で今年の方針をば。

　まず、一気に複数の事に手を付けると収集つかなくなるので、やる事とやらない事を大雑把に。

【最優先でやる事】自己対戦の経験をもとにした評価関数パラメータの学習。
【最優先じゃないけどやる事】αβ探索の効率化。
【余裕があれば、上記2つの後にやる事】合議を用いた学習・対局。
【やらない事】線形近似にかわる、新しい評価関数の枠組みの構築。
【やらない事】新しい探索ルーチンの実装。
【やらない事】探索ルーチンのパラメータ学習。

　んで、やる事をさらに詳細に。

自己対戦学習。
- アルゴリズムの候補は三つ。
  1. PGLeaf
  2. PG行動期待値法
  3. TDLeaf(λ)
- シングルエンジンか合議かによって更に三つに分岐。
  1. シングルエンジンでの学習。
  2. 互いに独立して学習する複数エンジンでの合議。（評価項目は複数の異なるものを使用する。）
  3. 合議を前提に学習する複数エンジンでの合議。（同上）
探索の効率化。ただし、「既存の強豪ソフトが既にやっている事」だけに限定し、それより先には行かない。
- 枝刈・打ち切り深さの短縮。
  1. LMR
  2. null move pruning
  3. Futility Pruning
- アルゴリズムレベル・実装レベルでのチューニング。
合議関連。
1. まずは多数決合議。
2. 余裕があれば、エンジンごとの固定重み付けをした合議。
3. 更に余裕があれば、局面からエンジンごとの重みを計算する関数の実装。
  - 重み関数のパラメータは学習によって調整する。
4. 合議クライアント間での情報共有による強化（以前書いた幾つかの手法）。

　新しい探索ルーチンに関しては、NegaMax探索とSoftMax方策を組み合わせたアルゴリズムがアイデアとしてあるんですが、評価関数の学習と同時にはやりたくないんで今年はパス。

　当面はPGLeafでシングルエンジンの学習を10月中に完成させるのを目標とします。

　んで、学習させつつ探索の効率化をはかり、ある程度深い（3〜5手程度の）学習に成功したら合議に取り組む予定。

　学習・選手権での使用マシンとしては、Ivy Bridge-EPデュアルの24コアマシンを当面のターゲットとしています。

　ものすごく大雑把ではありますが、大体こんな感じで進めていきます。