探査回数に応じた報酬によるメタ強化学習 - GA将？開発日記～王理のその先へ～

　現在はメタ強化学習無しで進めていますが、それが失敗した場合のバックアップとして検討中の事をメモ。

　まずメタ強化学習の状況ですが、メタエージェント*1の行動が報酬に直結する問題では成功しています。ただ、一時的に損をしても後々得る報酬を増やす、という行動は出来ていません。

　と言う訳で、表題の様に問題設定すれば成功するんじゃないかと、安易に考えています。多分失敗しますが。

　調整対象のメタパラメータは、今のところソフトマックス方策の温度だけです。λだとか評価関数の学習率だとかは調整しない方向で。

　以下、具体的な実装の話。

　探査とは「最善手以外の行動を行う事によって、未知の局面（状態）を経験する事」で、1局あたりの探査回数の目標を適当に設定しておきます。

　目標回数ですが、多分1か2あたりがベストでしょう。少なくとも、10とか20じゃ多すぎだと思います。

　で、例えば目標を2に設定した場合、実際の探査回数が2なら報酬は1.0。1回か3回なら報酬0.5。0回・4回なら報酬0.25…って感じで報酬を与えてやれば*2、勝手に最適な温度に収束するんじゃないかと期待してます。

　ま、あくまでバックアップ用のプランですし、のんびり検討しておきます。

*1:温度等のメタパラメータの設定を行うモジュール

*2:値は適当ですが、探査回数が目標と一致した時に最大の報酬になる様にすれば多分OKです。