ちょっとだけ強くなった
@MoriokaYuichi 線形近似の場合でも適用できるかわかりませんが、パラメータの出現回数を数えてMBIE-EBによって出現回数のルート分の1相当のボーナスを加えて行動決定するとかいかがでしょうか。応用されてDeepmind社のDQNに使われています。
— Katsuki Ohto (@cute_na_piglets) 2016年11月6日
Twitterで大渡さんにアイデアを貰って、実装してみたら割かし強くなりました。
5五将棋で、以前は対ssp(5五将棋モード)の勝率が88%だったのが、94%まで向上しました。
まだまだメタパラメータの調整中なので、もうちょっと弄れば更に強くなるかも、と期待しています。