PGQの実装、一通り完了 - GA将？開発日記～王理のその先へ～

　上記論文を参考にして、PGQ*1を実装。将棋モードではαβ探索と組み合わせて動く様にしてみました。

　論文との違いは以下の様な感じです。

　で、αとηという2つのメタパラメータを設定する必要があるのですが、現在は三目並べモードで色々な設定を試して、最適値を探っている所です。

　それと、5五将棋モードで学習用マシンに投入。こっちは、αとηはそれぞれ0.1・0.5でやってます。

　5五将棋モードでしばらく走らせて、上手く動く様でしたら本命の本将棋モードに移行します。

*1:方策勾配法とQ学習を組み合わせたアルゴリズム