なんとなく原因判明（かも） - GA将？開発日記～王理のその先へ～

　強化学習だと状態価値関数という、コンピュータ将棋の評価関数みたいなものがあって、それの学習率が低すぎたのが原因っぽい。

　まぁ、評価関数がgdgdだとまともな行動は不可能ですわな。

　んで、学習率を高くしてもやっぱ学習が遅い・・・

　TD法の限界っつーかなんつーか、「今の状態の価値を一つ先の状態の価値に近づける」って処理を前向きに（どんどん先に進みながら）やってくのが遅い理由っぽい。

　後ろ向きにやりゃぁもうチョイ速くなるんだろうけど、それで状態価値関数の近似が正確に出来るかどうか分からないし・・・

　うーん、どうしよう。