GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

短期的な項目

開発日記 TODO

「王手したら勝ち」って条件でも上手く行かないので、それの対策。

ソフトマックス手法を試してみる
- 評価値が高い手ほど選択する確率が高くなるので、ひょっとしたら上手く行くかも
- 本格的に実装する事になれば、エージェントと方策の実装を分離する
メタ強化学習を試してみる
- εグリーディー方策*1のεか、ソフトマックス手法の温度等を調整
- 前に書いたUCB1＋GAでのアクター*2の実装を試してみる価値はあるかも。
評価関数のパラメータに対するボーナスの付加をもうちょっと改良してみる。
- 詳しくは下記のアイデアメモ2件で。

*1:小さな確率εでランダムに行動選択、それ以外は最善手を選択する

*2:行動を選択するモジュール