2008-08-05から1日間の記事一覧
GAとUCB1-TUNED以外の細々した部分は完了。 とりあえず明日はUCB1-TUNEDを実装(と言うかこの前作ったソースを修正)して、明後日は初代GA将!からGAのソースを引っこ抜いてきて…今週中にはGA + UCB1-TUNEDは動くかな、という感じです。
まずはメタ強化学習の構成について。 おおざっぱに書くと下の様なイメージです。"→" は矢印の左側の値が右側の挙動を決める、 "⇒" は矢印の左側が右側の値を修正する事を表します。 メタエージェント ⇒ メタパラメータ → エージェント ⇒ 評価関数のパラメー…