GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

探査回数に応じた報酬によるメタ強化学習

 現在はメタ強化学習無しで進めていますが、それが失敗した場合のバックアップとして検討中の事をメモ。

 まずメタ強化学習の状況ですが、メタエージェント*1の行動が報酬に直結する問題では成功しています。ただ、一時的に損をしても後々得る報酬を増やす、という行動は出来ていません。

 と言う訳で、表題の様に問題設定すれば成功するんじゃないかと、安易に考えています。多分失敗しますが。

 調整対象のメタパラメータは、今のところソフトマックス方策の温度だけです。λだとか評価関数の学習率だとかは調整しない方向で。

 以下、具体的な実装の話。

 探査とは「最善手以外の行動を行う事によって、未知の局面(状態)を経験する事」で、1局あたりの探査回数の目標を適当に設定しておきます。

 目標回数ですが、多分1か2あたりがベストでしょう。少なくとも、10とか20じゃ多すぎだと思います。

 で、例えば目標を2に設定した場合、実際の探査回数が2なら報酬は1.0。1回か3回なら報酬0.5。0回・4回なら報酬0.25…って感じで報酬を与えてやれば*2、勝手に最適な温度に収束するんじゃないかと期待してます。

 ま、あくまでバックアップ用のプランですし、のんびり検討しておきます。

*1:温度等のメタパラメータの設定を行うモジュール

*2:値は適当ですが、探査回数が目標と一致した時に最大の報酬になる様にすれば多分OKです。