2019-03-13から1日間の記事一覧
arxiv.org 上記論文を参考にして、PGQ*1を実装。将棋モードではαβ探索と組み合わせて動く様にしてみました。 論文との違いは以下の様な感じです。 DNNではなく線形の評価関数を用いる。 Replay Bufferを使用しない。 式(14)の第1項と第2項を同時に学習する。…
先日書いた、合議での票の割れ具合に応じた思考時間制御の問題点ですが、解決策が見つかったのでメモ。 つらつら書くより擬似コードの方が分かりやすいかと思うので、まずそれから。C++風の構文です。 // PVには静止探索の読み筋も含むので、長さはバラバラ …