強化学習だと状態価値関数という、コンピュータ将棋の評価関数みたいなものがあって、それの学習率が低すぎたのが原因っぽい。
まぁ、評価関数がgdgdだとまともな行動は不可能ですわな。
んで、学習率を高くしてもやっぱ学習が遅い・・・
TD法の限界っつーかなんつーか、「今の状態の価値を一つ先の状態の価値に近づける」って処理を前向きに(どんどん先に進みながら)やってくのが遅い理由っぽい。
後ろ向きにやりゃぁもうチョイ速くなるんだろうけど、それで状態価値関数の近似が正確に出来るかどうか分からないし・・・
うーん、どうしよう。