2007-09-22 メタ強化学習の第一歩は完成 開発日記 n本腕バンディット問題*1でテスト中。 複数のメタパラメータ*2を同時に調整させてもちゃんと動いたし、非定常環境*3でも動作。おおむね上手くいっいます。 これ以上自分で考えた拡張をしても改悪にしかならなさそうなので、このままリバーシにメタ強化学習を組み込んでみます。 *1:得られる報酬が異なるn個のスロットマシンで、どのマシンに賭けるのが最適かを調べる問題 *2:学習率とランダムに行動する確率 *3:時間経過と共に環境が変化し、最適な行動も変化する環境