GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2014-04-11から1日間の記事一覧

ツツカナ流探索ルーチンの学習法

アピール文書には「学習は式(2)を勾配法等で最小化する」とサクッと書かれていますが、私の頭では微分がすぐには出来なかったのでメモ。 まずの微分。 んで、の微分。 の微分は指数部をとして 今度はの偏微分で はシグモイド関数の合成関数なので かなり自…

探索用の特徴量として使いたいもの

とりあえず思い付くままに列挙してみて、後で不要そうなら削る方向で。 移動元のマス(駒台含めて82通り) 移動先のマス(81通り) 移動後の駒の種類(14通り) 成る手か否か(2通り) 取られる駒の種類(13通り) 取った駒と取られた駒の種類(14×13通り) …

色々あって探索ルーチンの改良に着手する事にした

WCSC21の一丸さん(ツツカナの開発者)のアピール文書を読んで、ツツカナの新手法だとαβ+LMRに対して勝率75%、Rは+190*1ってのを見て、これはやらねば! と。 つー事で情報収集。枝刈りとか探索の延長・短縮関連の学習について覚えてる範囲で列挙。 「棋理…

二つ↑で書いたパラメータ

バグ持ち学習ルーチンの出力ですが、とりあえず連続対戦中。 …3連敗してから10連勝って、いくらなんでもおかしいだろう。いや、単に乱数が偏っただけでしょうけど。

千日手と置換表がらみのバグ発見

前から自己対戦学習がアサーションエラーでたまに止まると思ってたら、置換表のバグでした。 原因としては、まず千日手に至る途中の局面(3回目の同一局面とか)の評価値が、3.5とかの普通に評価関数で計算した値で置換表に保存されています。 で、4回目の同…

報酬の計算方法を修正

改良型PGLeafで報酬計算の式を修正。 で、結果。23万局学習したパラメータで対ssp(5五将棋モード)は300-?-93で勝率76.3%、95%信頼区間は71.8〜80.5。 わりかしいい感じなので、次は60万局学習後のパラメータで連続対戦してみます。