2011-09-09から1日間の記事一覧
とりあえず方策勾配法で4x4リバーシの片一方プレイヤーだけ学習が上手く行くのを目標にします。 んで、比較対象としてTDLeaf(λ)の方で片一方だけ学習。結果、先手も後手も方策勾配法と変わらない結果(NG)になりました。 それと、今まで方策勾配法では探索…
とりあえず方策勾配法で4x4リバーシの片一方プレイヤーだけ学習が上手く行くのを目標にします。 んで、比較対象としてTDLeaf(λ)の方で片一方だけ学習。結果、先手も後手も方策勾配法と変わらない結果(NG)になりました。 それと、今まで方策勾配法では探索…