GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

アピール文章(案)

読み

 GA将!!!!は「がしょう」と読みます。

 初期バージョンでGA(遺伝的アルゴリズム)を用いた学習を行っていたのが名前の由来です。 

概要

 簡易版ボナンザメソッドと強化学習のハイブリッド構成の学習ルーチンで評価関数のパラメータ調整を行うソフト。

学習部の構成

簡易版ボナンザメソッド部

 静止探索4手で探索した手が棋譜の手と一致する様に自動調整する。

 ただし、通常のボナンザメソッドと異なり、拘束条件・ペナルティは無し。

 棋譜将棋倶楽部24棋譜、約11万局を利用。

強化学習

 TDLeaf(λ)+ソフトマックス方策。探索は全幅1手+静止探索4手(この他、方策内部で全幅1手先読み)。

 自己対戦の結果から学習を行う。対局数は、上記条件で一日約10万〜20万局ほど。50万局前後で収束する(らしい)。

評価項目
  • 駒割
  • 筋・段個別の絶対位置評価
  • 駒の絶対位置評価
  • 二駒の相対位置関係の評価
  • 二駒の絶対位置関係の評価
  • 駒の自由度の評価
  • 王将の移動可能な範囲の評価
  • 王将周辺の利きの評価

 パラメータは全部で4000万前後。ただし、重複するパラメータや未使用のパラメータも含むので、実際に利用しているのはこの4分の1弱だと思われる(未調査)。

探索ルーチン

 αβ全幅+KFEnd流の2段階静止探索。ただし、KFEndと異なり脅威の評価は無し。

 静止探索の探索深さは一段目が4手、2段目が無制限。

 静止探索1段目では、駒を取る手及び成る手を全て探索する。

指し将棋ソフトとしての構成

 学習部と同じ探索ルーチンで反復深化。評価項目も同じ。

 ルートノードだけを対象とした、簡単な詰将棋ルーチン(ABC探索ベース)を実装。

ちなみにGA(遺伝的アルゴリズム)は

 今は使っていません!