今日までの実装項目を反映
「Q学習の拡張」というのは、上で書いた「非グリーディー行動時には価値関数のバックアップをしない」というものです。
適格度トレースを実装した時点で、非グリーディー行動時の価値関数の目標は、単に先読みして得た評価値に過ぎなくなる*1ので、それを目標にしては正確な価値関数を学習出来なくなるのではと思い実装予定でした。
まぁ、実装の動機とかは違ってきましたが、どうせ後で実装予定だったので良しとします。
- リバーシ関連
盤面の実装- 評価関数の実装(あまり複雑な事はしない)
石の位置・手番による評価手数と石の数による評価着手可能数開放度- この後の進展次第で追加
- αβの実装
- 必勝読みの実装 ← ここまでの目標 9月2日
- 適格度トレース
- メタ強化学習
Q学習の拡張(というか、一部処理の削除)- 非グリーディーな行動選択時限定でのソフトマックス手法の使用
- 将棋関連
*1:実際の対局で得た評価値ではなくなる