2019-03-26から1日間の記事一覧
昨夜から18時間ほど学習させたパラメータでsspと連続対局中ですが、現時点で53勝16敗、勝率76.8%。どうも、前回学習時の最終的な勝率と並びそうな感じです。 コード自体は前と同じで、RMSPropのαとノイズの標準偏差初期値をちょっといじっただけなんですが…
以前の二駒関係の評価値を見てみると、位置評価etcの評価値が大きすぎる気がしたので*1、その辺のメタパラメータとかを調整して再度学習用マシンに投入。 それから、山本一将@ひまわりさん方式の教師あり方策勾配法も試してみたけど、こっちは私には使いこ…