GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

今日までの実装項目を反映

TODO

　「Q学習の拡張」というのは、上で書いた「非グリーディー行動時には価値関数のバックアップをしない」というものです。

　適格度トレースを実装した時点で、非グリーディー行動時の価値関数の目標は、単に先読みして得た評価値に過ぎなくなる*1ので、それを目標にしては正確な価値関数を学習出来なくなるのではと思い実装予定でした。

　まぁ、実装の動機とかは違ってきましたが、どうせ後で実装予定だったので良しとします。

リバーシ関連
- ~~盤面の実装~~
- 評価関数の実装（あまり複雑な事はしない）
  - ~~石の位置・手番による評価~~
  - ~~手数と石の数による評価~~
  - ~~着手可能数~~
  - ~~開放度~~
  - この後の進展次第で追加
- αβの実装
- 必勝読みの実装 ← ここまでの目標 9月2日
- 適格度トレース
- メタ強化学習
- ~~Q学習の拡張（というか、一部処理の削除）~~
- 非グリーディーな行動選択時限定でのソフトマックス手法の使用
将棋関連
- 将棋で使う為に強化学習関連のクラスをC++に移植
- 詰め将棋の実装
- 将棋用の評価関数の実装 ← ここまでの目標9月中
  - 駒割
  - 絶対位置による評価
  - 王将との相対位置による評価
  - 二駒の位置関係（やらないかも・・・）

*1:実際の対局で得た評価値ではなくなる