探査回数に応じた報酬によるメタ強化学習
現在はメタ強化学習無しで進めていますが、それが失敗した場合のバックアップとして検討中の事をメモ。
まずメタ強化学習の状況ですが、メタエージェント*1の行動が報酬に直結する問題では成功しています。ただ、一時的に損をしても後々得る報酬を増やす、という行動は出来ていません。
と言う訳で、表題の様に問題設定すれば成功するんじゃないかと、安易に考えています。多分失敗しますが。
調整対象のメタパラメータは、今のところソフトマックス方策の温度だけです。λだとか評価関数の学習率だとかは調整しない方向で。
以下、具体的な実装の話。
探査とは「最善手以外の行動を行う事によって、未知の局面(状態)を経験する事」で、1局あたりの探査回数の目標を適当に設定しておきます。
目標回数ですが、多分1か2あたりがベストでしょう。少なくとも、10とか20じゃ多すぎだと思います。
で、例えば目標を2に設定した場合、実際の探査回数が2なら報酬は1.0。1回か3回なら報酬0.5。0回・4回なら報酬0.25…って感じで報酬を与えてやれば*2、勝手に最適な温度に収束するんじゃないかと期待してます。
ま、あくまでバックアップ用のプランですし、のんびり検討しておきます。