GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

Q学習が意外と面白いです

 さっき書いた問題なんですが、

  • ある程度の幅のある道を、短時間で端から端まで抜けるのが目的
  • 道の片側には崖があり、落ちるとスタート地点に戻る
  • 道のもう片側は壁で、移動不可能
  • スタート地点は崖側の角にあり、ゴール地点は崖側のもう一方の角にある

という問題です。

 で、TD法とQ学習の性格の違い(?)が学習結果に出てて、なかなか面白いです。

TD「こ、これ位崖から離れてれば落ちないよね(ビクビク)… キャッ(ストーン)」
Q「べ、別に崖に落ちるのなんて怖くないんだからッ」

 て感じ。

 ・・・てか、このエントリーが開発日記カテゴリなのはおかしいかも。