前にアイデアメモに書いた(気がする)、パラメータへのノイズの付加によって探査を促進させる手法を「ノイズ付加探査」と呼ぶ事にしました。
んで、今日はそれを実装。と言っても、全パラメータに平均0・分散適当な正規乱数を加えるだけなんで、実装的にはかなり楽ちんでしたが。
ただ、「分散適当」っつっても、どの程度の値が適当かはまだ不明。とりあえず試行錯誤して決めてみますが、最終的には自動制御にしたいですね。メタ強化学習とか使って。
てゆーか、メタ強化学習も選手権終わったら本腰入れてリトライしてみますか。あれがあると色々と楽が出来そうですし。