GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2010-09-01から1ヶ月間の記事一覧

学習用マシンの様子

先手の勝率:0.600000 引き分け率:0.000000 平均手数 :87.60 GpD :1487 経過時間 :2h44m 探査率 : 0.0741736 温度 : 0.00392156 ウィンドウマージン : 0.0541783 学習率 : 0.001 平均TD誤差 : 0.117743 一日1487局ペースって、遅いよ。遅すぎですよ。 や…

学習用マシンに設定変えたのを投入

今までは探索深さが2手だったんですが、そろそろ収束したっぽいんで3手に増やして投入。 これでsspと五分まで強くなってくれると良いんですが、どうかなぁ。

VS ssp(本将棋モード)

125-5-201で勝率38.3%。95%信頼区間は33.0〜43.9。 うーん、まだ弱い。 ところで、何か開発したいんですが、ネタが無いです。うーん、どうしたもんか。 あ、そうそう。この前の強化学習の本は、まだ図書館に届いてないみたいですね。あれがあれば何か出来…

VS ssp(本将棋モード)

137-3-257で勝率34.8%。95%信頼区間は30.1〜39.7。 予想通り、弱くなってますorz まぁでも、拙いながらも銀を進めて攻めるのを覚え始めた様なので、そういう面では進歩があったかも。

VS ssp(本将棋モード)

155-2-228で勝率40.5%。95%信頼区間は35.5〜45.6。 強くなってるのは良いんですが、経験的にこういう場合は翌日のパラメータだと弱くなってるんで…な感じです。

VS ssp(本将棋モード)

247-4-449で勝率35.5%。95%信頼区間は31.9〜39.2。 徐々にではありますが、強くなってます。

TD(λ)とTDLeaf(λ)の統一された見方

「TD(λ)とTDLeaf(λ)の違いは、価値関数(=評価関数)の実装方法の違いだけなんじゃないか」って話をダラダラと書きます。要はチラシの裏。個人的に考えをまとめるためだけのものです。 まず、適格度トレースがあると話がややこしくなるので、ここではTD(0)…

将棋世界

将棋世界 2010年 10月号 [雑誌]出版社/メーカー: 毎日コミュニケーションズ発売日: 2010/09/03メディア: 雑誌購入: 1人 クリック: 6回この商品を含むブログ (7件) を見る 読みました。一成さんの連載。 楽観的合議に関してはまだ強くなる理由が解明されてな…

VS ssp(本将棋モード)

引き続き学習させたパラメータ。 189-11-385で勝率32.9%。95%信頼区間は29.1〜36.9。 誤差程度にしか強くなってないです。

強くなるロボティック・ゲームプレイヤーの作り方 ~実践で学ぶ強化学習~

強くなるロボティック・ゲームプレイヤーの作り方 ~実践で学ぶ強化学習~作者: 八谷大岳,杉山将出版社/メーカー: 毎日コミュニケーションズ発売日: 2008/08/28メディア: 単行本(ソフトカバー) クリック: 73回この商品を含むブログ (12件) を見る 方策勾配法…

VS ssp(本将棋モード)

学習率0.001・探索深さ2にしてパラメータ引き継ぎで一晩走らせたやつ。 結果、136-2-289で勝率32.0%。95%信頼区間は27.6〜36.7。 前よりはちょっと強くなってるものの、まだまだ弱い。 あ、でも、探索深さを1→2に上げて強くなったのは初めてだし、そういう…

VS ssp(本将棋モード)

学習率0.01で一晩走らせたパラメータ。 結果、109-2-334で勝率24.6%。95%信頼区間は20.7〜26.9。 弱すぎです。

VS ssp(本将棋モード)

王手・recapture0.5手延長でパラメータは選手権時のものの結果。 102-2-77で勝率57.0%。95%信頼区間は49.4〜64.3。誤差程度にしか強くなってないんで、これはお蔵入りですね。