GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2010-06-15から1日間の記事一覧

ノイズ付加探査を修正してリトライ

以前はノイズの分散を手調整していたんですが、探査率*1を見て自動調整する様に変更。やってる事はソフトマックス方策の温度を自動調整するのと似た感じです。 んで、ざっと走らせてみて意図した通りに動いてるみたいなんで、学習用マシンに投入します。 *1:…

久しぶりに本将棋の盤面を見た感想

すごく・・・広いです・・・・・・ こんなん、ちょっと探査した位で何とかなるレベルを超えてる気がするんですが・・・ orz なんだろう、この絶望感は。

TreeStrapに対するTDLeaf(λ)の優位性

について考えてみました。 んで、やっぱり「手を指したずっと後の局面の評価値・報酬の情報を利用可能」ってのがそれなんじゃないかと。 TreeStrapの論文には「探索中の情報を捨ててるからTDLeaf(λ)には無駄が多いし、PV末端ノードの評価値しか修正しないの…

やっぱりTDLeaf(λ)バージョンは強すぎて困った

ssp(5五将棋モード)相手に728-?-177。勝率80.4%で95%信頼区間は77.7〜83.0。 うーん、こうなったらTDLeaf(λ)を極めてみる方向で行くか?