強化学習でよく出てくる、探索と知識利用のトレードオフに上手く対応出来ていないのが、現状のGA将の問題点だと思います。 という訳でここを何とかしたいんですが、対策としてはソフトマックス方策の温度調整を頑張るとか、ソフトマックスではない別の方策(…
変数の初期化部分で、配列の添字を間違ってて対象外の変数を初期化していたのを修正。 で、さらにもう一晩テストしたいので、昨夜と同じく三目並べと5五将棋でテストラン中。
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。