2010-06-15から1日間の記事一覧
以前はノイズの分散を手調整していたんですが、探査率*1を見て自動調整する様に変更。やってる事はソフトマックス方策の温度を自動調整するのと似た感じです。 んで、ざっと走らせてみて意図した通りに動いてるみたいなんで、学習用マシンに投入します。 *1:…
すごく・・・広いです・・・・・・ こんなん、ちょっと探査した位で何とかなるレベルを超えてる気がするんですが・・・ orz なんだろう、この絶望感は。
について考えてみました。 んで、やっぱり「手を指したずっと後の局面の評価値・報酬の情報を利用可能」ってのがそれなんじゃないかと。 TreeStrapの論文には「探索中の情報を捨ててるからTDLeaf(λ)には無駄が多いし、PV末端ノードの評価値しか修正しないの…
ssp(5五将棋モード)相手に728-?-177。勝率80.4%で95%信頼区間は77.7〜83.0。 うーん、こうなったらTDLeaf(λ)を極めてみる方向で行くか?