2016-01-01から1年間の記事一覧
上の結果、ログをよく見ると先手の勝率だけ異常に高い(8割〜9割程度)。 GA将側の先後での勝率をログに出してなかったから、出す様に修正して再度学習中だけど、どうなる事やら。 ひょっとしたら、後手の学習ロジックのどっかにバグが有る可能性も有ります…
ssp相手に対局しての学習で、勝率が一旦上がってから下がってる。 学習条件は下記の通り。 5五将棋。 PGLeaf。 全幅5手+静止探索。 ssp側は1手1秒。 よし、正則化を有効にしてみよう。
http://pc.watch.impress.co.jp/docs/news/1014911.html 以前はサポート期間が短縮されるという話でしたが、結局それは撤回されたみたいですね。 ただ、今後登場するKaby LakeはWindows 10のみのサポートとなるみたいなので、「最新世代のCPUでWindows 7」っ…
アサーション有効・無効の2バージョンを2台のマシンで並行して走らせて寝る事にします。 んで、明日は本格的にテストして、それからメタパラメータの調整かな。
後は強化学習エージェントとしての雑多なメソッドを実装すれば完了。今日中には出来るでしょう。 んで、ざっくり見てみた感じ、原始モンテカルロの割には「それらしい」手を選択出来ている模様。 とりあえず、今夜はアサーション有効・無効の2バージョンを並…
15:17:26 @ core::rl::PgMcAgent::goBench() > 26.324602sec, 160388773nodes, 379.9kplayout/sec 15:17:26 @ core::rl::PgMcAgent::goBench() > selectedMove==(25)→(34)+角, score==0.000023(1892895), pi==0.107605 15:17:26 @ core::rl::PgMcAgent::goBe…
神様相手に学習するのは無理ゲーすぎる感じです。 んで、5五将棋・本将棋用に原始モンテカルロと方策勾配法を組み合わせた学習アルゴリズムを実装中。 とりあえずプレイアウト部分のベンチマークを書いたけど、6コアマシンで340k playout/secは出た。 速度的…
http://minerva.cs.uec.ac.jp/~uec55shogi/wiki.cgi?page=diceshogi%5Ftournament という訳で、当面の目標は来年3月になりました。 となると、5五将棋の学習一式を3月までに完成させておいて、3〜4月は本将棋のほうで学習・調整ですかね。 まずは、5五将棋大…
https://www.tanaka.ecc.u-tokyo.ac.jp/ktanaka/dobutsushogi/ URLは再掲。上記サイトのプログラムを以下の環境で動かす事に成功したので、メモ。 OS:Windows 7 Professional x64 開発環境:Visual Studio Community 2015 プログラムの修正が必要だった箇所は…
https://www.tanaka.ecc.u-tokyo.ac.jp/ktanaka/dobutsushogi/ 現在、田中先生の完全解析の結果をGA将に組み込む作業の途中です。 …なんですが、一部の局面で正常に最善手を取得出来ない現象が発生。困りました。 上記サイトのプログラムが(多分)UNIX用で、…
将棋盤クラスは完成。打ち歩詰めとか二歩のチェックを外して、トライルールにも対応。 という訳で、一晩学習させてみます。 …引き分け率が異常に高くて、正直期待薄ですが。
20:49:00 @ wmain() > +---+---+---+ 20:49:00 @ wmain() > |vき|vラ|vぞ| 20:49:00 @ wmain() > +---+---+---+ 20:49:00 @ wmain() > | |vひ| | 20:49:00 @ wmain() > +---+---+---+ 20:49:00 @ wmain() > | |^ひ| | 20:49:00 @ wmain() > +---+---+---+ 20…
https://www.tanaka.ecc.u-tokyo.ac.jp/ktanaka/dobutsushogi/ とりあえず上記サイトのプログラムをダウンロードして、必要なソースをGA将のプロジェクトに追加。 んで、現在将棋盤クラスのどうぶつしょうぎ対応をしている所です。 どうぶつしょうぎはそこそ…
探索ルーチンのバグですが、枝刈り時にPVを取得する処理が間違っていただけでした。つまり、修正しても棋力には影響無し。多分。 んで、floodgateからは一旦引っ込めて、ローカルで連続対局させてみます。その方がサンプル数多く稼げるので。
探索ルーチンにバグが有る様で、現在修正中です。 という訳で、floodgateは一時中断。
バグ自体は少し前から有ったらしいんですが、今回学習ルーチンを実装して、パラメータの推移が異常だったので気が付きました。 案外、学習させているともう1つ2つはバグが見つからないかなぁ、と期待していま。
現在、探索パラメータの学習ルーチンを書いている途中ですが、学習中のパラメータをファイルに書き出す際に*1エラー発生。エラーコードは13。 別段パーミッションが変とかそういう事も無かったんで、下記のサイトを参考にエラーメッセージを表示させてみまし…
マージン調整していないまま(残り時間一杯まで使う設定)でfloodgateに投入してしまっていたので、修正したバージョンを18:30の回から投入します。 対局者の皆様、ご迷惑をお掛けしました。
http://wdoor.c.u-tokyo.ac.jp/shogi/view/show-player.cgi?event=LATEST&filter=floodgate&show_self_play=1&user=Gasyou_fv.bin_FX-8350_8c Gasyou_fv.bin_FX-8350_8cという名前で、今日の14:00の回から放流しました。 中身ですが、評価関数はBonanza 6.0…
1つのパラメータを2箇所で使用していた為、学習結果がおかしくなっていました。 という訳で、学習用マシンには修正版を投入。floodgateの方はパラメータ手打ちバージョンに差し替えました。
2時間半ほど学習させた探索パラメータにファイルを差し替えて投入します。 ローカルでsspとテスト対局させた所、多少マシになっている感じでした。
森岡です。一応、生きていました。 んで、タイトル(の後ろ)に書きましたが、ポリシー、捨てようかなぁと検討中。 今までは「プロ棋士の棋譜を使わずに学習」ってのに拘ってましたが、そこを方向転換。 つっても、今更教師あり学習に転向したんじゃ10年分周…
諸々の体調悪化により、選手権に出られるメドが立たなくなりましたので、キャンセルしました。 関係者の皆様には、直前のキャンセルでご迷惑をお掛けして申し訳ありません。 ただ、GA将の開発を辞めるわけでは無いので、また来年(OR 秋のイベント)でお会い…
アピール文書書かないと失格になってしまう…
http://itpro.nikkeibp.co.jp/atcl/column/14/090100053/021000126/?ST=bigdata&P=2 (ITProへのユーザ登録が必要です) 「AlphaGoは自己対局からの強化学習で強くなった」と理解していたのですが、微妙に違ったみたいです。 私が考えていたのは(&今GA将で…
チョロっとニュースを眺めただけなんですが、劣勢の局面から挽回したりなんだかんだあって、見応えがあった対局みたいですね(私は囲碁はサッパリ分かりませんが)。 んで、困った事が一つ。 今後「強化学習でコンピュータ将棋の評価関数パラメータの調整を…
評価関数パラメータに関しては、現在学習用マシンで走らせている最中です。 これが収束するのはおそらく4月に入ってからなので、それまでの間に何か別の事をしようかな、と検討中。 んで、やりたい事は「探索パラメータの学習」と決まっているのですが、選択…
学習用マシンでは、全幅3手+静止探索1段目10手だと24時間あたり2万〜2万5千局ペースみたいです。 全幅5手+静止探索にすると更に遅くなるんで、全幅3手が実用上の限界だと判断しました。 んで、選手権まで約2ヶ月あるんで、ずっと学習させっぱなしで何とか1…
まず、評価関数にPP絶対を実装しました。対局時はKPPのテーブルに値を足し込んで使うので、NPSの低下は無いはずです。 これで、ちょっとでも汎化能力が向上すれば嬉しいな、と。 それから、全幅1手+静止探索10手での学習では強くなってくれなかったので、全…
三駒関係の評価関数に学習に必要な関数を追加して、諸々のパラメータ調整もほぼ完了。 という訳で、今夜から本番の学習に着手します。 …てゆーか、これで強くなってくれないと詰む。選手権で大恥かくの確定。