2007-10-15 TD(λ)+メタ強化学習は一応完成 開発日記 と言うか、完成した事にします。 んで、実験結果はまぁまぁ良かったのですが、メタパラメータ手打ちの方が良い結果だったので、当面は手打ちで行く事にします。 さて、後はリバーシにTD(λ)を組み込んだら予備実験は完了。ようやくコンピュータ将棋で強化学習に入れます。 あ、その前にQ(λ)にしないといけないのか。まぁ、これはすぐ出来るでしょう。