当面の目標はGPW杯にして、それまでに本将棋でちゃんと指せるのを作りたいです。
んで、まずは学習・探索のマルチスレッド化は置いといて、シングルスレッドで強化していく方針で。
最初は報酬に駒の前進ボーナスを与えるのをちゃんと動く様にして、その後3駒の相対位置関係の評価をリトライする予定。
報酬の前進ボーナスですが、いきなり本将棋だと学習実験の効率悪いんで、5五将棋で何か適当なボーナスの設定を考えて、それで実験するつもりです。
GPW後は合議と方策勾配法を組み合わせた学習に着手、上手く行けば次回選手権はその学習結果を使う、と。
ものすごい大雑把ですが、大体そんな方針で行こうかと思います。