「設計上の問題点」ですが、「TD誤差 = 目標値 - ボーナス付加後の評価値」としていたのが悪いんじゃないかというのが私の予想です。 ボーナスは学習が進むにつれて小さくなっていくので、学習時点でのボーナスをあてにしてパラメータを調整していると、後々…
対局数は減少する(=遅くなってる) 成駒の価値もある程度は変化するが、まだ生駒より低い 歩の価値が異様に高い(金銀と同じ位。出現頻度が高いから?) っつー感じです。 ある程度良い感触はあるものの、これで実用に耐えるかというとまだ厳しい感じ。 動…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。