- 評価関数は現状のコードをベースに改良
- 基本は線形の評価関数
- 自己対戦からの強化学習でパラメータ調整
- VAPS(Value and Policy Search)*1とαβ探索を組み合わせてみる
- 評価項目を追加
- 探索はStockfish化
- 並列探索
- 各種枝刈りも可能な限り導入
- ムーブオーダリングも頑張る
合議はロマンがあってやりたいんですが、まだ未知数な所もあるのでこれから半年は手を付けません。
学習に関しては、電王トーナメントの会場でプロ棋士の棋譜の使用はかなり効果的という話は聞きました。
が、棋譜からの学習は多くの人がやってる事で、今更それを後追いしても追い付ける気がしません。
と言う訳で、学習はあくまで自己対戦からという方式に拘ります。