GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2019-03-13から1日間の記事一覧

PGQの実装、一通り完了

arxiv.org 上記論文を参考にして、PGQ*1を実装。将棋モードではαβ探索と組み合わせて動く様にしてみました。 論文との違いは以下の様な感じです。 DNNではなく線形の評価関数を用いる。 Replay Bufferを使用しない。 式(14)の第1項と第2項を同時に学習する。…

思考時間制御の修正案

先日書いた、合議での票の割れ具合に応じた思考時間制御の問題点ですが、解決策が見つかったのでメモ。 つらつら書くより擬似コードの方が分かりやすいかと思うので、まずそれから。C++風の構文です。 // PVには静止探索の読み筋も含むので、長さはバラバラ …