メタ学習の実装を検討中
PGLeafのテストも行き詰まりがちなのと、もうすぐ盆休みでまとまった時間が取れそうなので、デッカイ改良を検討中。
んで、表題のメタ学習。
一般的に、学習ルーチンの挙動を決めるパラメータを「メタパラメータ」とか「ハイパーパラメータ」と呼びます。例えば学習率とかSoftmax方策の温度とか。
んで、大抵はメタパラメータは事前に決めた値*1を使います。
ただ、学習の進行状態を見ながらメタパラメータを自動調整する(学習する)というのも一部ではやられていて、それを「メタ学習」と呼んでいる様です。
という訳で「GAを用いたメタ学習」をやってみようかと検討中。
今は色々と先行事例を調査している段階なので、しばらくしてアルゴリズム案が出来てからまた書き込みます。
*1:固定であったり、時間経過などによって変化させたりはしますが