2013-01-01から1ヶ月間の記事一覧
学習ルーチンではなく、学習ルーチンのテスト用ルーチンでした。 という訳で、「学習ルーチンのバグを発見して一発逆転」って夢は儚く潰えました。
んで、最初は評価関数が怪しかったんですが、ひょっとしたら方策勾配法エージェントの問題って可能性も再浮上して来ました。 とりあえずは現象が再現する様にコードに細工して、対策はその後ですね。
この前からやってた、1局の自己対戦棋譜にオーバーフィッティングさせるテストの件。 まず、5五将棋で勝った側のみ、あるいは負けた側のみの学習だと、一致率がそれぞれ1.0、0.0に収束します。(探索は使わずに、素のREINFORCEで学習した場合。) ただ、両方…
7回目位から学習が停滞してる…よなぁ、どう見ても。 青が勝った側の手番での自己対戦棋譜との一致率で、赤が負けた側です。 う〜ん…困った。
マシンは仮でCore i7 3770K(4.4GHzにOC)で申請しました。 学習と合議が成功したらデュアルプロセッサマシンを買いたいけど、それはまだ先かなぁ…
そろそろ選手権に申し込まないと。残り100日でキリがいいし、今日中にやっとくか。
今日は定時で上がれたんで、寝るまでみっちりコーディング出来そうです。 とりあえず、方策勾配法で1局だけ対象に学習して指し手選択確率が正しく学習出来るのは確認したんで、今度は8並列で学習して8局を対象に学習させてみます。
No. 駒割 持ち駒の組み合わせ 筋・段個別の駒の絶対位置 駒の絶対位置 二駒相対位置関係 三駒の相対位置関係 飛び利きを遮る駒 駒の自由度 王将の移動可能範囲 探索ルーチン 勝率 95%信頼区間 A1 ○ ○ ○ ○ ○ ○ - - - 200Kノードで打ち切り・詰将棋ルーチン無…
学習初期はひどい将棋指してるなw 01:39:11 @ core::rl::GameAggregator::aggregate() > 200局終了 01:39:11 @ core::rl::GameAggregator::aggregate() > +---+---+---+---+---+---+---+---+---+ 01:39:11 @ core::rl::GameAggregator::aggregate() > |^と|…
選手権まで残り465日になりました。 …現実逃避してないで、デバッグしますか。
探査率が0でパラメータ修正されないはずなのに、何故か修正してるっポイ。 うーん、もしバグならかなり致命的な感じなんで、チャッチャと原因究明して治したいですね。
No. 駒割 持ち駒の組み合わせ 筋・段個別の駒の絶対位置 駒の絶対位置 二駒相対位置関係 三駒の相対位置関係 飛び利きを遮る駒 駒の自由度 王将の移動可能範囲 探索ルーチン 勝率 95%信頼区間 A1 ○ ○ ○ ○ ○ ○ - - - 200Kノードで打ち切り・詰将棋ルーチン無…
これは期待大! 明日の朝が楽しみです。 んで、学習用マシンでは駒割を適当な値で初期化したバージョンを学習中。明日の朝には連続対戦をそっちのパラメータに差し替えて、本命の本将棋の学習を開始する予定。 出来れば今月中にfloodgateに復帰したいけど、…
http://northwood.blog60.fc2.com/blog-entry-6505.html て事は、今年の選手権には間に合わない、と。 どうしよっかなぁ〜、とりあえずCore i7 3770Kマシンが手持ちの中で最速だから、本気で勝負しに行くならこれで出るしか無いか。 あ、Core i7とAtomでクラ…
No. 駒割 持ち駒の組み合わせ 筋・段個別の駒の絶対位置 駒の絶対位置 二駒相対位置関係 三駒の相対位置関係 飛び利きを遮る駒 駒の自由度 王将の移動可能範囲 探索ルーチン 勝率 95%信頼区間 A1 ○ ○ ○ ○ ○ ○ - - - 200Kノードで打ち切り・詰将棋ルーチン無…
No. 駒割 持ち駒の組み合わせ 筋・段個別の駒の絶対位置 駒の絶対位置 二駒相対位置関係 三駒の相対位置関係 飛び利きを遮る駒 駒の自由度 王将の移動可能範囲 探索ルーチン 勝率 95%信頼区間 5 ○ ○ ○ ○ ○ - - - - 200Kノードで打ち切り・詰将棋ルーチン無…
No. 駒割 持ち駒の組み合わせ 筋・段個別の駒の絶対位置 駒の絶対位置 二駒相対位置関係 三駒の相対位置関係 飛び利きを遮る駒 駒の自由度 王将の移動可能範囲 探索ルーチン 勝率 95%信頼区間 5 ○ ○ ○ ○ ○ - - - - 200Kノードで打ち切り・詰将棋ルーチン無…
えー、連続対戦用のプログラムに不具合があって、データとり直しになりました。 元々、初手はランダムでその後は評価値に乱数を加算するという方法で、対局結果がある程度ランダムになるようにしていました。 が、評価値に足す乱数のシードを固定にしていた…
Deep Learningは実装出来なかったけど、線形の評価関数の方はそれなりに進展あったんでまぁ良しとしましょう。 んで、出来れば今日中に二駒の絶対位置関係も実装して、寝ながら学習を走らせる所まで持って行きたいですね。 二駒絶対関係を実装すると、評価項…
学習用マシンでアサーション無効(本番用設定)・開発用マシンでアサーション有効(テスト用設定)にして走らせてたんですが、アサーションに引っかかってました。 場所は評価値の差分計算と逐次計算の結果を突き合わせる所で、どうも差分計算の初期化がちゃ…
三駒関係の評価、バグってる? なんか、ssp相手に14-?-25で勝率35.9%(95%信頼区間が21.2〜52.8)とかって、異常に低い値なんですけど… ひょっとして、どっかエンバグしてるのかなぁ…
三駒相対評価の差分計算を実装。 …1%程度しか高速化しませんでした。 あれか、5五将棋は駒が密集しているケースが多いから、差分計算の効果が少ないのかな? 本将棋の方で比較しなおして、それで速くなってたら納得しよう。うん。
ざっとテストして、問題無さそうなんで学習用マシンに投入。並行して、開発用マシンではアサーション有効バージョンを走らせてます。 んで、10万局の学習終了まで約3時間なんで、その間問題無ければ一晩連続対局させてみます。 ちなみにパラメータ数ですが、…
今日中に10万局の学習まで終わらせて、連続対戦させつつ寝たいんだけど…無理かも。時間的に。 まぁいいや、出来るだけやってみよう。
アルゴリズムの問題で、一部の特徴しか抽出出来ていませんでした。 という訳で今から全面書き直しな訳ですが、バグってるバージョンであの勝率かぁ… バグ直したらssp相手に勝率8割届くかも。期待大です。
この前のNo.8のパラメータ・評価関数で、思考時間1.95秒に設定して対局。 で、詰将棋ルーチンがあると229-?-114で勝率66.8%、無しだと393-?-174で勝率69.3%。多分詰将棋ルーチンを有効にすると弱くなってます。 …となると、詰将棋のバグで詰まない玉を詰ま…
http://www.sakurai.comp.ae.keio.ac.jp/classes/infosem-class/2012/15DeepLearning.pdf リンクは昨日と同じのを再掲。会社の休み時間に印刷して持って行ったのを読んでいました。 んで、ボンヤリと理解出来てきたんでまとめてみます。 (私は教師有り学習…
No. 駒割 持ち駒の組み合わせ 筋・段個別の駒の絶対位置 駒の絶対位置 二駒相対位置関係 三駒の相対位置関係 飛び利きを遮る駒 駒の自由度 王将の移動可能範囲 探索ルーチン 勝率 95%信頼区間 0 ○ - - ○ - - - - - 思考時間打ち切り(1.95秒)・詰将棋ルー…
前に実装して結局使ってなかった三駒の相対位置関係の評価を追加。 No. 駒割 持ち駒の組み合わせ 筋・段個別の駒の絶対位置 駒の絶対位置 二駒相対位置関係 三駒の相対位置関係 飛び利きを遮る駒 駒の自由度 王将の移動可能範囲 探索ルーチン 勝率 95%信頼…
No. 駒割 持ち駒の組み合わせ 筋・段個別の駒の絶対位置 駒の絶対位置 二駒相対位置関係 飛び利きを遮る駒 駒の自由度 王将の移動可能範囲 探索ルーチン 勝率 95%信頼区間 0 ○ - - ○ - - - - 思考時間打ち切り(1.95秒)・詰将棋ルーチン有り 53.0(140-?-1…