前の論文の手法は断念(半分だけ)
http://d.hatena.ne.jp/Gasyou/20170701/1498906118
上記論文の手法ですが、5五将棋で使用するのは難しそうです。
と言うのは、論文中でρとρ'という値を計算する必要があるのですが、現状のGA将の評価関数ではどちらも0.0になってしまいます*1。多倍長浮動小数点数クラスを使えば問題が解決するかもしれませんが、今度は計算速度的な問題が出てきます。
という訳で、論文の手法自体は断念する事にしました。
ただ、三目並べで色々試した結果、「行動選択時にボーナスを与える」よりも「行動選択は素の*2Softmaxで、報酬にボーナスを与える」やり方の方が有望そうだと分かりました。
イメージとしては、勝敗をベースとした報酬(飴と鞭)に加えて「新しい事に挑戦したから(勝敗にかかわらず)ちょっとだけ褒めてあげよう」という感じですね。
てな訳で、現在はEBIE-EBベースのボーナスを終局時の報酬に加算する方式で三目並べのテスト中。明日朝には結果出るはずです。
これで上手く行きそうなら、5五将棋にも同じ手法を適用してみようと思います。