arxiv.org
上記論文を参考にして、PGQ*1を実装。将棋モードではαβ探索と組み合わせて動く様にしてみました。
論文との違いは以下の様な感じです。
- DNNではなく線形の評価関数を用いる。
- Replay Bufferを使用しない。
- 式(14)の第1項と第2項を同時に学習する。
で、αとηという2つのメタパラメータを設定する必要があるのですが、現在は三目並べモードで色々な設定を試して、最適値を探っている所です。
それと、5五将棋モードで学習用マシンに投入。こっちは、αとηはそれぞれ0.1・0.5でやってます。
5五将棋モードでしばらく走らせて、上手く動く様でしたら本命の本将棋モードに移行します。