GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

とりあえず今後の方針を決めた

 当面の目標はGPW杯にして、それまでに本将棋でちゃんと指せるのを作りたいです。

 んで、まずは学習・探索のマルチスレッド化は置いといて、シングルスレッドで強化していく方針で。

 最初は報酬に駒の前進ボーナスを与えるのをちゃんと動く様にして、その後3駒の相対位置関係の評価をリトライする予定。

 報酬の前進ボーナスですが、いきなり本将棋だと学習実験の効率悪いんで、5五将棋で何か適当なボーナスの設定を考えて、それで実験するつもりです。

 GPW後は合議と方策勾配法を組み合わせた学習に着手、上手く行けば次回選手権はその学習結果を使う、と。

 ものすごい大雑把ですが、大体そんな方針で行こうかと思います。