GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

色々修正

 とりあえず探索の強化は後回し。

 それから、報酬は勝敗に応じた値だけでもそこそこ強くなりそうなので、下手に手を加えない事にしました。

 という訳で、まずは実戦用に詰将棋ルーチンを実装。その後に合議方策勾配法をやるって事で。

 合議方策勾配法は色々とアイデアがあるので、ひょっとしたら化けるかも、と期待しています。

  • 詰将棋ルーチンの実装
  • 合議方策勾配法の実装
  • 合議関連で色々
    • 合議クライアントの票数(重み)を学習で決定する
    • 合議クライアント間での情報共有
  • Ponderもどき(相手の思考時間に評価関数パラメータを学習する)
  • 探索の強化
    • ムーブオーダリングの改善(SEEの導入・パラメータ調整)
    • LMR
    • Null-Move Pruning
    • Futility Pruning
  • 自己対戦学習時の報酬の与え方を変更
    • 銀・桂馬の前進時に報酬を与える