Q学習が意外と面白いです
さっき書いた問題なんですが、
- ある程度の幅のある道を、短時間で端から端まで抜けるのが目的
- 道の片側には崖があり、落ちるとスタート地点に戻る
- 道のもう片側は壁で、移動不可能
- スタート地点は崖側の角にあり、ゴール地点は崖側のもう一方の角にある
という問題です。
で、TD法とQ学習の性格の違い(?)が学習結果に出てて、なかなか面白いです。
TD「こ、これ位崖から離れてれば落ちないよね(ビクビク)… キャッ(ストーン)」
Q「べ、別に崖に落ちるのなんて怖くないんだからッ」
て感じ。
・・・てか、このエントリーが開発日記カテゴリなのはおかしいかも。