GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

色々修正

TODO

開発の方はさっぱり進まないです。この分だと、年内に完成も難しいかも…

リバーシでの予備実験
- ~~TDLeaf(λ)実装。~~
- ~~メタ強化学習で、状態を見て行動選択する様に変更。~~
- メタ強化学習で、状態の表現方法を検討。
- εグリーディーとソフトマックス手法の比較。
- TDLeaf(λ)とTD(λ)の比較。
将棋の学習関連
- TDLeaf(λ)エージェントを再実装。
  - 方策をエージェントから独立させる。
  - メタ強化学習対応。
- メタ強化学習の移植。
- 学習中の各種統計情報の収集・表示ルーチン実装。
- 対局部分の並列化。
- 他のソフトとの連続対戦ルーチン実装（勝率での検証用）。
- 評価関数でのstd::mapの使用をやめる。
  - ひょっとしたらテンプレートを使用する必要があるかも。ここら辺は要検討。
- ハッシュ表の再実装。
- MTD(f)再実装。静止探索部分でもハッシュを使用する。
- 将棋のルールの細かい部分の実装。
  - 千日手・連続王手の千日手の検出。
  - 入玉宣言の実装。
  - 詰みとステイルメイトの区別。
  - 打ち歩詰めと打ち歩ステイルメイトの検出。
- 探索に頓死チェックを追加。（※必要に応じて）
選手権での対局用
- USIにちゃんと対応
- MTD-∞の実装
- 思考時間制御