PGLeafの改良案の5x5格子世界でのテスト結果
縦横5マスの格子世界で、左下からスタートして右上に到達したらゴール、という問題をREINFORCEと改良案(RPS)で解かせてみました。
同一条件でテストした結果が上記で、左が改良版・右が素のREINFORCEです。
左の方は、ゴールを除く全てのマスで最適な方策*1が学習出来ていますが、右の方では一部の白いマスでは最適ではない方策を学習しています。
もちろん、REINFORCEでも十分時間をかければ左と同様の結果になるんですが、将棋の学習みたいに問題の規模が大きいと、そもそも時間をかけるのが大変なので、効率化の効果はあると思っています。
…で、後は本将棋・5五将棋での「レア局面の検出」がちゃんと学習出来るかなんですが、こっちは芳しくありません。
どっかバグってる可能性大なのでテスト中ですが、これが出来ないと目標が達成出来ませんので。
とりあえず、UEC杯までには何とかしたいですね。
*1:右もしくは上に移動