こんな感じです。 実験の条件は以下の通り。 Q(λ)*1 学習率=0.0001 λ=0.9 評価項目は駒割+王将との相対位置 約22時間走らせて、対局数は3万4千ほどでした。 上記のグラフには王将との相対位置による駒の価値の増減を反映していないので、実際とは異なります…
何度でも蘇る魔王をあらゆる方法を駆使して倒すRPG風ゲーム「魔王の最期」。 なのはさんの事かーーーーーーーーーーーー!
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。