GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

色々修正

開発の方はさっぱり進まないです。この分だと、年内に完成も難しいかも…

  • リバーシでの予備実験
    • TDLeaf(λ)実装。
    • メタ強化学習で、状態を見て行動選択する様に変更。
    • メタ強化学習で、状態の表現方法を検討。
    • εグリーディーとソフトマックス手法の比較。
    • TDLeaf(λ)とTD(λ)の比較。
  • 将棋の学習関連
    • TDLeaf(λ)エージェントを再実装。
      • 方策をエージェントから独立させる。
      • メタ強化学習対応。
    • メタ強化学習の移植。
    • 学習中の各種統計情報の収集・表示ルーチン実装。
    • 対局部分の並列化。
    • 他のソフトとの連続対戦ルーチン実装(勝率での検証用)。
    • 評価関数でのstd::mapの使用をやめる。
      • ひょっとしたらテンプレートを使用する必要があるかも。ここら辺は要検討。
    • ハッシュ表の再実装。
    • MTD(f)再実装。静止探索部分でもハッシュを使用する。
    • 将棋のルールの細かい部分の実装。
      • 千日手・連続王手の千日手の検出。
      • 入玉宣言の実装。
      • 詰みとステイルメイトの区別。
      • 打ち歩詰めと打ち歩ステイルメイトの検出。
    • 探索に頓死チェックを追加。(※必要に応じて)
  • 選手権での対局用
    • USIにちゃんと対応
    • MTD-∞の実装
    • 思考時間制御