2013-01-30から1日間の記事一覧
学習ルーチンではなく、学習ルーチンのテスト用ルーチンでした。 という訳で、「学習ルーチンのバグを発見して一発逆転」って夢は儚く潰えました。
んで、最初は評価関数が怪しかったんですが、ひょっとしたら方策勾配法エージェントの問題って可能性も再浮上して来ました。 とりあえずは現象が再現する様にコードに細工して、対策はその後ですね。
学習ルーチンではなく、学習ルーチンのテスト用ルーチンでした。 という訳で、「学習ルーチンのバグを発見して一発逆転」って夢は儚く潰えました。
んで、最初は評価関数が怪しかったんですが、ひょっとしたら方策勾配法エージェントの問題って可能性も再浮上して来ました。 とりあえずは現象が再現する様にコードに細工して、対策はその後ですね。