GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

細々と修正中

対局終了時の情報表示回りで足りない機能があったので、その辺を追加…してたら、学習結果がなんか変でした。

んで、よくよく調べてみると、アルゴリズムがTDLeaf(λ)じゃなくてTD-directed(λ)*1になってました。

…えーっと、これって大分前に変更した箇所だから、ひょっとして今までのメタ強化学習の結果もTD-directed(λ)の結果?

とりあえずTDLeaf(λ)に戻して一晩動かしてみますが、これで上手く行ったら迷うなぁ。メタ強化学習を採用すべきかせざるべきか。

*1:対局時はMinMaxを使って、学習時は探索結果を使わないバージョンのTD(λ)