2008-06-16 明日からのおおざっぱな予定 開発日記 自己対戦でのBonanza Methodはやりません。強化学習で行きます。今まで多少なりとも強化学習での経験を得られたんで、それを捨てるのはもったいないですから。 まずはソフトマックス手法*1を試してみて、後は出たとこ勝負。 メタ強化学習は出来るだけ早期にやる。 強化学習エージェント部分は一から作り直し。修正項目は下記の通り。 エージェントと方策の分離。 メタ強化学習への対応。 報酬の扱いを修正。対局途中での報酬もちゃんと考慮する。 *1:評価値の高い手ほど高確率で指す