2013-10-01から1ヶ月間の記事一覧
探索か評価関数のどっちか(あるいは両方)が怪しいので、その辺をテストしてます。 んで、評価関数は差分計算有りの評価項目だけにしてみました。 差分計算有りの項目は、差分計算値と逐次計算値を突き合わせて一致するかテストするルーチンがあるので、多…
http://d.hatena.ne.jp/Gasyou/20131016/1381923477 前はほぼ同じ設定で対sspの勝率が70%行ってたんで、どっかエンバグしてますね。 探索とか評価関数とか、そう言う将棋固有の部分が怪しいですが、どっから手を付けたもんかなぁ…
今朝から一晩分。84万局自己対戦後のパラメータで。学習時の探索深さは全幅1手+静止探索。 んで、結果。93-?-719で勝率11.5%、95%信頼区間は9.3〜13.8。 とりあえずこれをベースラインとして、後は探索を深くしてどの程度強くなるかですね。
今のGA将のロジックだと、駒割は下記の様になっています。 歩〜飛車はその駒の価値単独のパラメータがある。 と歩〜成銀は「金とと金(OR 成香 OR 成桂 OR 成銀)の差分」をパラメータとして持ち、これに金の価値を足したのが成駒の価値。 馬・龍は「角(飛…
結局何も進展無し。かなり凹んでます。 んで、一度基本に戻る意味で、PGLeafでの学習を突き詰めていこうかと検討中。 電王トーナメントには間に合わないでしょうが、来年の選手権をターゲットにじっくりやる事にしました。
前提として「評価値をシグモイド関数に通すと勝率になる」って条件が必要だったんですが、ざっとデータとった限りだと条件満たせそう。 つー事で、早速改良します。
私には使いこなせないらしいという結論になりました。 んで、PGLeafの改良で1つプランがあるので、そっちを試してみます。三連休中には完成するかな? …電王戦まであと3週間程ですが、無茶苦茶ピンチですね。
自然TD学習ですが、相変わらず難航しています。 一応、「TD誤差の推定が上手く出来ていない」という問題点は分かっているんですが、一向に対策が思い付きません。 論文は穴が空くほど読み込んだので、アルゴリズム自体は間違ってないとは思うのですが… 「方…
http://ex.nicovideo.jp/denou/tournament/soft.html 発表されていましたね。 これは、4年前のパラメータファイルを持ち出しても手も足も出ないでしょうから、今やってる学習を成功させて一発逆転を狙うしか無さそうです。 まぁ、方針決まったのでスッキリし…
相変わらず自然TD学習をやってますが、三目並べの学習ですら挙動が怪しいです。 …うーん、手詰まりっぽいなぁ。
三目並べは時間をかければ収束する? でも、4x4リバーシが収束まで1,000局で、三目並べだと2,000局ってのは時間かかりすぎだよなぁ。 …うん、やっぱりどっかバグってんだろう。多分。
4x4リバーシは学習に成功したんですが、三目並べの方は失敗しているみたいです。 どういう事でしょうかねぇ…
と言うか、元から大枠は出来ていて、今日はコンパイル時オプションの変更と微調整しかしてないんですが。 んで、早速学習用マシンにリリースモードで投入。開発用マシンではアサーション有効でテストしてみます。 それから、メタパラメータβを微調整。0.999→…
↑で書いた「ちゃんと収束する様になった」理由ですが、ψの正規化を実装したら上手く行く様になりました。 具体的には、ψの全要素の絶対値の合計が1になる様に調整してから、TD誤差の近似に使う様にしました。 何でこれで上手く行ったのか理論的な事は不明で…
線形の評価関数を使って、1,000局前後でちゃんと収束する様になりました。 TD誤差とその予測値の相関係数ですが、0.5前後となりまずまずの値。 んで、今朝から走らせていた本将棋の学習ですが、9,500局経過後のパラメータでLesserkai相手に17-0-3。 まだ伸び…