GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

なんとなく原因判明(かも)

 強化学習だと状態価値関数という、コンピュータ将棋の評価関数みたいなものがあって、それの学習率が低すぎたのが原因っぽい。

 まぁ、評価関数がgdgdだとまともな行動は不可能ですわな。

 んで、学習率を高くしてもやっぱ学習が遅い・・・

 TD法の限界っつーかなんつーか、「今の状態の価値を一つ先の状態の価値に近づける」って処理を前向きに(どんどん先に進みながら)やってくのが遅い理由っぽい。

 後ろ向きにやりゃぁもうチョイ速くなるんだろうけど、それで状態価値関数の近似が正確に出来るかどうか分からないし・・・

 うーん、どうしよう。