GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

アピール文書下書き

今年度バージョンの概要

  • 強化学習の一手法である方策勾配法を用いて評価関数パラメータの学習を行う。
  • 評価項目は駒割・駒の位置評価+細々としたものいくつか。
  • 探索は普通にαβ探索で全幅(LMRあり)+二段階静止探索。
  • 詰将棋ルーチンも一応あります。
  • 複数種類の評価関数で合議をします。
  • 思考時間制御は進行度と合議の票の割れ方をベースに実施。
  • 現在の棋力はfloodgate*1の2週間レーティングが1300前後(多分)。

最終目標

  • 学習を成功させて、シングルクライアントでのレーティング+1500。
  • 合議でやり残した事を色々やってレーティング+500。
  • デュアルプロセッサマシンを購入して、レーティング+200。
  • これで、最終的には決勝クラスのソフトに追い付く予定です。