GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

PGQの実装、一通り完了

arxiv.org

 上記論文を参考にして、PGQ*1を実装。将棋モードではαβ探索と組み合わせて動く様にしてみました。

 論文との違いは以下の様な感じです。

  • DNNではなく線形の評価関数を用いる。
  • Replay Bufferを使用しない。
  • 式(14)の第1項と第2項を同時に学習する。

 で、αとηという2つのメタパラメータを設定する必要があるのですが、現在は三目並べモードで色々な設定を試して、最適値を探っている所です。

 それと、5五将棋モードで学習用マシンに投入。こっちは、αとηはそれぞれ0.1・0.5でやってます。

 5五将棋モードでしばらく走らせて、上手く動く様でしたら本命の本将棋モードに移行します。

*1:方策勾配法とQ学習を組み合わせたアルゴリズム