開発の方はさっぱり進まないです。この分だと、年内に完成も難しいかも… リバーシでの予備実験 TDLeaf(λ)実装。 メタ強化学習で、状態を見て行動選択する様に変更。 メタ強化学習で、状態の表現方法を検討。 εグリーディーとソフトマックス手法の比較。 TDLe…
10/20の開発日記に書いた値でOKでした。
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。