2007-09-22から1日間の記事一覧
結果は・・・微妙。 前よりは良いけど、4x4のリバーシですら学習がちゃんと進むかどうかはいまだに運任せ。 もうちょっと修正しないとダメだけど、方針が決まらないので少し考えてみます。 やっぱ、αβとか必勝読みとかを実装してからじゃないと、上手く動か…
n本腕バンディット問題*1でテスト中。 複数のメタパラメータ*2を同時に調整させてもちゃんと動いたし、非定常環境*3でも動作。おおむね上手くいっいます。 これ以上自分で考えた拡張をしても改悪にしかならなさそうなので、このままリバーシにメタ強化学習を…