細々と修正中 - GA将？開発日記～王理のその先へ～

対局終了時の情報表示回りで足りない機能があったので、その辺を追加…してたら、学習結果がなんか変でした。

んで、よくよく調べてみると、アルゴリズムがTDLeaf(λ)じゃなくてTD-directed(λ)*1になってました。

…えーっと、これって大分前に変更した箇所だから、ひょっとして今までのメタ強化学習の結果もTD-directed(λ)の結果？

とりあえずTDLeaf(λ)に戻して一晩動かしてみますが、これで上手く行ったら迷うなぁ。メタ強化学習を採用すべきかせざるべきか。

*1:対局時はMinMaxを使って、学習時は探索結果を使わないバージョンのTD(λ)