GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2011-09-11から1日間の記事一覧

ちょっと進展?

方策勾配法での本将棋の学習が、ちょっと進んだかもしれません。 ふと「評価関数の能力不足で、序盤と終盤の学習が両立出来ないのかも」と思い、初手〜50手目までを学習対象としてみました(それ以降は、終局まで指すけど方策勾配の計算をしない)。 んで、5…

探索深さを色々変えて実験中

方策勾配法+ソフトマックス方策+αβ探索で4x4のリバーシを先手のみ学習中。 んで、探索深さと最適方策との誤差の関係を測定してるんですが、何か変な現象が。深さ4〜5で一旦誤差が1を切って、深さ6だと今度は誤差が8に増えてます。 テストが10,000局*10セット…

ソフトマックス方策の温度・目標探査率と平均誤差の関係

方策勾配法+ソフトマックス方策+線形評価関数で、4x4リバーシの先手のみ学習時の最適方策での報酬と実際の報酬の誤差を調べてみました。 実験条件は、10,000局を1セットとして各設定で10セット学習し、その平均値です。 温度と平均誤差の関係は、CSVファイル…

ちょこっと追加&修正

シグモイド関数無しでの方策勾配法 実装は完了。現在テスト中。 レポート収集系の整理 パラメータのセーブ・ロードまわりのテスト ※問題無し パラメータ・条件を色々変えてデータ採取 全自動連続対局環境の構築 温度も方策勾配法で学習してみる ソフトマック…