色々修正
とりあえず探索の強化は後回し。
それから、報酬は勝敗に応じた値だけでもそこそこ強くなりそうなので、下手に手を加えない事にしました。
という訳で、まずは実戦用に詰将棋ルーチンを実装。その後に合議方策勾配法をやるって事で。
合議方策勾配法は色々とアイデアがあるので、ひょっとしたら化けるかも、と期待しています。
- 詰将棋ルーチンの実装
- 合議方策勾配法の実装
- 合議関連で色々
- 合議クライアントの票数(重み)を学習で決定する
- 合議クライアント間での情報共有
- Ponderもどき(相手の思考時間に評価関数パラメータを学習する)
- 探索の強化
- ムーブオーダリングの改善(SEEの導入・パラメータ調整)
- LMR
- Null-Move Pruning
- Futility Pruning
- 自己対戦学習時の報酬の与え方を変更
- 銀・桂馬の前進時に報酬を与える