ちょっと進展？

開発日記

方策勾配法での本将棋の学習が、ちょっと進んだかもしれません。ふと「評価関数の能力不足で、序盤と終盤の学習が両立出来ないのかも」と思い、初手〜50手目までを学習対象としてみました（それ以降は、終局まで指すけど方策勾配の計算をしない）。んで、5…

探索深さを色々変えて実験中

開発日記

方策勾配法+ソフトマックス方策+αβ探索で4x4のリバーシを先手のみ学習中。んで、探索深さと最適方策との誤差の関係を測定してるんですが、何か変な現象が。深さ4〜5で一旦誤差が1を切って、深さ6だと今度は誤差が8に増えてます。テストが10,000局*10セット…

開発日記

方策勾配法+ソフトマックス方策+線形評価関数で、4x4リバーシの先手のみ学習時の最適方策での報酬と実際の報酬の誤差を調べてみました。実験条件は、10,000局を1セットとして各設定で10セット学習し、その平均値です。温度と平均誤差の関係は、CSVファイル…

TODO

シグモイド関数無しでの方策勾配法実装は完了。現在テスト中。レポート収集系の整理パラメータのセーブ・ロードまわりのテスト ※問題無しパラメータ・条件を色々変えてデータ採取全自動連続対局環境の構築温度も方策勾配法で学習してみるソフトマック…