色々修正 - GA将？開発日記～王理のその先へ～

　とりあえず探索の強化は後回し。

　それから、報酬は勝敗に応じた値だけでもそこそこ強くなりそうなので、下手に手を加えない事にしました。

　という訳で、まずは実戦用に詰将棋ルーチンを実装。その後に合議方策勾配法をやるって事で。

　合議方策勾配法は色々とアイデアがあるので、ひょっとしたら化けるかも、と期待しています。

詰将棋ルーチンの実装
合議方策勾配法の実装
合議関連で色々
- 合議クライアントの票数（重み）を学習で決定する
- 合議クライアント間での情報共有
Ponderもどき（相手の思考時間に評価関数パラメータを学習する）
探索の強化
- ムーブオーダリングの改善（SEEの導入・パラメータ調整）
- LMR
- Null-Move Pruning
- Futility Pruning
自己対戦学習時の報酬の与え方を変更
- 銀・桂馬の前進時に報酬を与える