報酬の割引を実装したら、ちょっと改善 - GA将？開発日記～王理のその先へ～

　後手のみ学習で、例として下記局面での各手を指す確率をログ出力してみました。

■■■■■
■○×　■
■○　　■
■　　　■
■■■■■
手番：後手

　で、ログを眺めてると、○の2つ並んでるのを止めないといけないんだけど、止めた後の勝ち方をなかなか学習出来ていない（止めた後の手順が長いので、なかなか勝つ対局が出現しない）らしいという所まで突き止めました。

　んで、それなら目先の負けをとりあえず回避出来る様にと、報酬の割引*1を実装してみました。

　結果、下記の通り。時間の都合でリバーシ・テーブル形式の評価関数は実験していません。

　リバーシ・線形評価関数の両方学習版は収束までの対局数が短くなってますし、まぁ割と良い感じです。

　学習条件は下記の通り。

　それじゃぁ次は5五将棋で割引率を色々変えて実験してみます。

*1:開始局面から近い報酬ほど重視するようにする