とりあえず今後の方針を決めた - GA将？開発日記～王理のその先へ～

　当面の目標はGPW杯にして、それまでに本将棋でちゃんと指せるのを作りたいです。

　んで、まずは学習・探索のマルチスレッド化は置いといて、シングルスレッドで強化していく方針で。

　最初は報酬に駒の前進ボーナスを与えるのをちゃんと動く様にして、その後3駒の相対位置関係の評価をリトライする予定。

　報酬の前進ボーナスですが、いきなり本将棋だと学習実験の効率悪いんで、5五将棋で何か適当なボーナスの設定を考えて、それで実験するつもりです。

　GPW後は合議と方策勾配法を組み合わせた学習に着手、上手く行けば次回選手権はその学習結果を使う、と。

　ものすごい大雑把ですが、大体そんな方針で行こうかと思います。