GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

短期的な項目

「王手したら勝ち」って条件でも上手く行かないので、それの対策。

  1. ソフトマックス手法を試してみる
    • 評価値が高い手ほど選択する確率が高くなるので、ひょっとしたら上手く行くかも
    • 本格的に実装する事になれば、エージェントと方策の実装を分離する
  2. メタ強化学習を試してみる
    • εグリーディー方策*1のεか、ソフトマックス手法の温度等を調整
    • 前に書いたUCB1+GAでのアクター*2の実装を試してみる価値はあるかも。
  3. 評価関数のパラメータに対するボーナスの付加をもうちょっと改良してみる。
    • 詳しくは下記のアイデアメモ2件で。

*1:小さな確率εでランダムに行動選択、それ以外は最善手を選択する

*2:行動を選択するモジュール