2012-03-18 アピール文書下書き コンピュータ将棋 今年度バージョンの概要 強化学習の一手法である方策勾配法を用いて評価関数パラメータの学習を行う。 評価項目は駒割・駒の位置評価+細々としたものいくつか。 探索は普通にαβ探索で全幅(LMRあり)+二段階静止探索。 詰将棋ルーチンも一応あります。 複数種類の評価関数で合議をします。 思考時間制御は進行度と合議の票の割れ方をベースに実施。 現在の棋力はfloodgate*1の2週間レーティングが1300前後(多分)。 最終目標 学習を成功させて、シングルクライアントでのレーティング+1500。 合議でやり残した事を色々やってレーティング+500。 デュアルプロセッサマシンを購入して、レーティング+200。 これで、最終的には決勝クラスのソフトに追い付く予定です。 *1:http://wdoor.c.u-tokyo.ac.jp/shogi/floodgate.html