GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2012-08-13から1日間の記事一覧

VS ssp(5五将棋モード)

217-?-215で勝率50.2%、95%信頼区間は45.4〜55.0でした。 うーん、学習進めるほど弱くなるってのは困った現象ですね。どうしたもんか。

さて、次はどうしようか?

とりあえずやりたい事。 方策勾配法のテスト 合議とTDLeaf(λ)/方策勾配法を組み合わせてみる 評価関数の改良(正則化かベイズ回帰を導入) 自己対戦学習時にABC探索を使ってみる 本将棋でテスト とりあえずは上から順番にやってみようかなぁ… あ、さっきか…

VS ssp(5五将棋モード)

昨夜まで約10時間、4万局程学習させたバージョン。TDLeaf(λ)で学習条件は探索が全幅2手+静止探索4手。目標探査率は5%。 で、勝敗は315-?-193で勝率62.0%、95%信頼区間は57.6〜66.2。大分強くなりました。 記念に駒割のパラメータの変化のグラフをアップ…