GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

2010-09-01から1ヶ月間の記事一覧

学習用マシンの様子

開発日記

先手の勝率：0.600000 引き分け率：0.000000 平均手数：87.60 GpD ：1487 経過時間：2h44m 探査率 : 0.0741736 温度 : 0.00392156 ウィンドウマージン : 0.0541783 学習率 : 0.001 平均TD誤差 : 0.117743 一日1487局ペースって、遅いよ。遅すぎですよ。や…

学習用マシンに設定変えたのを投入

開発日記

今までは探索深さが2手だったんですが、そろそろ収束したっぽいんで3手に増やして投入。これでsspと五分まで強くなってくれると良いんですが、どうかなぁ。

VS ssp（本将棋モード）

開発日記学習経過

125-5-201で勝率38.3％。95％信頼区間は33.0〜43.9。うーん、まだ弱い。ところで、何か開発したいんですが、ネタが無いです。うーん、どうしたもんか。あ、そうそう。この前の強化学習の本は、まだ図書館に届いてないみたいですね。あれがあれば何か出来…

VS ssp（本将棋モード）

開発日記学習経過

137-3-257で勝率34.8％。95％信頼区間は30.1〜39.7。予想通り、弱くなってますorz まぁでも、拙いながらも銀を進めて攻めるのを覚え始めた様なので、そういう面では進歩があったかも。

VS ssp（本将棋モード）

開発日記学習経過

155-2-228で勝率40.5％。95％信頼区間は35.5〜45.6。強くなってるのは良いんですが、経験的にこういう場合は翌日のパラメータだと弱くなってるんで…な感じです。

VS ssp（本将棋モード）

開発日記学習経過

247-4-449で勝率35.5％。95％信頼区間は31.9〜39.2。徐々にではありますが、強くなってます。

TD(λ)とTDLeaf(λ)の統一された見方

開発日記

「TD(λ)とTDLeaf(λ)の違いは、価値関数（＝評価関数）の実装方法の違いだけなんじゃないか」って話をダラダラと書きます。要はチラシの裏。個人的に考えをまとめるためだけのものです。まず、適格度トレースがあると話がややこしくなるので、ここではTD(0)…

将棋世界

コンピュータ将棋

将棋世界 2010年 10月号 [雑誌]出版社/メーカー: 毎日コミュニケーションズ発売日: 2010/09/03メディア: 雑誌購入: 1人クリック: 6回この商品を含むブログ (7件) を見る読みました。一成さんの連載。楽観的合議に関してはまだ強くなる理由が解明されてな…

VS ssp（本将棋モード）

開発日記学習経過

引き続き学習させたパラメータ。 189-11-385で勝率32.9％。95％信頼区間は29.1〜36.9。誤差程度にしか強くなってないです。

強くなるロボティック・ゲームプレイヤーの作り方 ~実践で学ぶ強化学習~

コンピュータ将棋

強くなるロボティック・ゲームプレイヤーの作り方 ~実践で学ぶ強化学習~作者: 八谷大岳,杉山将出版社/メーカー: 毎日コミュニケーションズ発売日: 2008/08/28メディア: 単行本（ソフトカバー）クリック: 73回この商品を含むブログ (12件) を見る方策勾配法…

VS ssp（本将棋モード）

開発日記学習経過

学習率0.001・探索深さ2にしてパラメータ引き継ぎで一晩走らせたやつ。結果、136-2-289で勝率32.0％。95％信頼区間は27.6〜36.7。前よりはちょっと強くなってるものの、まだまだ弱い。あ、でも、探索深さを1→2に上げて強くなったのは初めてだし、そういう…

VS ssp（本将棋モード）

開発日記学習経過

学習率0.01で一晩走らせたパラメータ。結果、109-2-334で勝率24.6％。95％信頼区間は20.7〜26.9。弱すぎです。

VS ssp（本将棋モード）

開発日記学習経過

王手・recapture0.5手延長でパラメータは選手権時のものの結果。 102-2-77で勝率57.0％。95％信頼区間は49.4〜64.3。誤差程度にしか強くなってないんで、これはお蔵入りですね。