GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

アピール文書下書き

コンピュータ将棋

今年度バージョンの概要

強化学習の一手法である方策勾配法を用いて評価関数パラメータの学習を行う。
評価項目は駒割・駒の位置評価＋細々としたものいくつか。
探索は普通にαβ探索で全幅（LMRあり）＋二段階静止探索。
詰将棋ルーチンも一応あります。
複数種類の評価関数で合議をします。
思考時間制御は進行度と合議の票の割れ方をベースに実施。
現在の棋力はfloodgate*1の2週間レーティングが1300前後（多分）。

最終目標

学習を成功させて、シングルクライアントでのレーティング＋1500。
合議でやり残した事を色々やってレーティング＋500。
デュアルプロセッサマシンを購入して、レーティング＋200。
これで、最終的には決勝クラスのソフトに追い付く予定です。

*1:http://wdoor.c.u-tokyo.ac.jp/shogi/floodgate.html