2008-11-19 細々と修正中 開発日記 対局終了時の情報表示回りで足りない機能があったので、その辺を追加…してたら、学習結果がなんか変でした。 んで、よくよく調べてみると、アルゴリズムがTDLeaf(λ)じゃなくてTD-directed(λ)*1になってました。 …えーっと、これって大分前に変更した箇所だから、ひょっとして今までのメタ強化学習の結果もTD-directed(λ)の結果? とりあえずTDLeaf(λ)に戻して一晩動かしてみますが、これで上手く行ったら迷うなぁ。メタ強化学習を採用すべきかせざるべきか。 *1:対局時はMinMaxを使って、学習時は探索結果を使わないバージョンのTD(λ)