2007-09-17 メタ強化学習にリトライ 開発日記 処理内容を思いっきりシンプルにしてみたらある程度上手くいきました。 と言っても、ε*1を手で設定したのと同程度ですが。 となると、複雑な事をさせようとして学習に時間がかかっている可能性もあるので、元に戻して一晩走らせてみます。 *1:ランダムに行動を選択する確率