2010-01-23から1日間の記事一覧
森北出版の「強化学習」によると、環境のモデル*1を用いない手法を「学習」、用いる手法を「プランニング」と呼ぶそうです。 で、今までの私のプログラムは前者だったんですが、他のソフト相手での対局から学習するならプランニングの方が相性いいかもと思っ…
パラメータ引継ぎで一晩ざくっと学習させてみたのですが、どうも弱くなってます。 んで、パラメータの平均修正量とノイズの分散の比率を調べてみたのですが、前者が1.0e-9前後に対して後者が2.0e-6でした。そりゃ、ノイズが多すぎてちゃんと学習出来ないはず…