2008-06-12 短期的な項目 開発日記 TODO 「王手したら勝ち」って条件でも上手く行かないので、それの対策。 ソフトマックス手法を試してみる 評価値が高い手ほど選択する確率が高くなるので、ひょっとしたら上手く行くかも 本格的に実装する事になれば、エージェントと方策の実装を分離する メタ強化学習を試してみる εグリーディー方策*1のεか、ソフトマックス手法の温度等を調整 前に書いたUCB1+GAでのアクター*2の実装を試してみる価値はあるかも。 評価関数のパラメータに対するボーナスの付加をもうちょっと改良してみる。 詳しくは下記のアイデアメモ2件で。 *1:小さな確率εでランダムに行動選択、それ以外は最善手を選択する *2:行動を選択するモジュール