アピール文章(案)
概要
簡易版ボナンザメソッドと強化学習のハイブリッド構成の学習ルーチンで評価関数のパラメータ調整を行うソフト。
学習部の構成
強化学習部
TDLeaf(λ)+ソフトマックス方策。探索は全幅1手+静止探索4手(この他、方策内部で全幅1手先読み)。
自己対戦の結果から学習を行う。対局数は、上記条件で一日約10万〜20万局ほど。50万局前後で収束する(らしい)。
評価項目
- 駒割
- 筋・段個別の絶対位置評価
- 駒の絶対位置評価
- 二駒の相対位置関係の評価
- 二駒の絶対位置関係の評価
- 駒の自由度の評価
- 王将の移動可能な範囲の評価
- 王将周辺の利きの評価
パラメータは全部で4000万前後。ただし、重複するパラメータや未使用のパラメータも含むので、実際に利用しているのはこの4分の1弱だと思われる(未調査)。
探索ルーチン
αβ全幅+KFEnd流の2段階静止探索。ただし、KFEndと異なり脅威の評価は無し。
静止探索の探索深さは一段目が4手、2段目が無制限。
静止探索1段目では、駒を取る手及び成る手を全て探索する。
ちなみにGA(遺伝的アルゴリズム)は
今は使っていません!