ノイズ付加探査を修正してリトライ

開発日記

以前はノイズの分散を手調整していたんですが、探査率*1を見て自動調整する様に変更。やってる事はソフトマックス方策の温度を自動調整するのと似た感じです。んで、ざっと走らせてみて意図した通りに動いてるみたいなんで、学習用マシンに投入します。 *1:…

久しぶりに本将棋の盤面を見た感想

すごく・・・広いです・・・・・・こんなん、ちょっと探査した位で何とかなるレベルを超えてる気がするんですが・・・ orz なんだろう、この絶望感は。

開発日記

について考えてみました。んで、やっぱり「手を指したずっと後の局面の評価値・報酬の情報を利用可能」ってのがそれなんじゃないかと。 TreeStrapの論文には「探索中の情報を捨ててるからTDLeaf(λ)には無駄が多いし、PV末端ノードの評価値しか修正しないの…

開発日記学習経過

ssp（5五将棋モード）相手に728-?-177。勝率80.4％で95％信頼区間は77.7〜83.0。うーん、こうなったらTDLeaf(λ)を極めてみる方向で行くか？