2015-04-15 方策の改善案を思い付いた…かも 開発日記 まだ具体的なアルゴリズムにまで落とし込めて無いんですが、なんとなくモヤッとした形は見えてきました。 大雑把に書くと、従来は「評価値の高い手を高確率で選択」だったのを、「評価値+得られる情報量(等)の高い手を高確率で選択」ってすれば上手く行く…んじゃないかなぁ。 とりあえず現在、先行事例を検索しつつアルゴリズムの検討中。頭ん中でまとまったら改めてここに書きます。