対局終了時の情報表示回りで足りない機能があったので、その辺を追加…してたら、学習結果がなんか変でした。 んで、よくよく調べてみると、アルゴリズムがTDLeaf(λ)じゃなくてTD-directed(λ)*1になってました。 …えーっと、これって大分前に変更した箇所だか…
メタ強化学習関連をざっくり削除。「ニューロ評価関数+メタ強化学習で、動的にノードの追加・削除を行う」ってプランがあったのですが、それに関しても後で検討する事にします。 それから、リバーシ用の線形評価関数はイマイチ能力的に怪しい部分があるので…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。