2015-01-01から1ヶ月間の記事一覧
本将棋で、24時間あたり80〜90万局ペースで学習が進んでいます。速い。 …けど、読み筋とか評価値とかがおかしいらしく、報酬予測値の誤差がかなり大きめです。 これは、早急に修正しないと。
前回選手権時の探索ルーチンにPV/NonPVの区別を追加して、静止探索中では「NonPVの場合」かつ「SEEが負の場合」に枝刈りする様に修正。 ざっとテストした感じだと大丈夫そうなので、早速学習用マシンに投入。 それから、全幅探索部でも枝刈りがあるんで、そ…
どうも、バグじゃなくてちゃんと動作していた様です。 んで、現在は本将棋モードで合議用に複数評価関数の並行学習を実行中。 かなり時間がかかってますので、学習と並行して探索ルーチンの改良をして行こうと思います。 とりあえず、Stockfishを参考にPV No…
自己対戦の一棋譜だけから学習中。 …なんか、パラメータの修正方向がおかしい? テスト用ドライバのバグなのか、テスト対象のコードのバグなのか、イマイチはっきりしませんね。 ……困った。 そして気が付くと選手権まで100日を切っているという事実。やヴぁ…
状況は好転せず。困った。 となると、学習ルーチンのバグって線が濃厚なので、も一回テストしてみますか。
ふと「学習率の設定、ミスってね?」と思い、設定ファイルを眺めてみたら…テスト用の設定のままでした。 つー訳で妥当そうな値に修正して学習開始。
囲いの駒の認識・評価を実装してみましたが、金銀が囲いの駒だとマイナス評価になってます _| ̄|○ 学習ルーチンか評価関数か、どっちかバグってる可能性大ですね。
上で書いた囲いの駒の評価を実装してみました。 大雑把にテストして問題無かったので、見切り発車で学習用マシンに投入。並行して、開発用マシンでアサーション有効にして走らせています。 明日にはちゃんとテストをしないと…
以前どっかで書いた覚えがあるんですが、探しても見つからなかったので再度書きます。 まず、「囲いの駒」の認識アルゴリズム。先手の囲いを対象としますので、後手の時は適当に先後反転してやればOKです。 先手玉が利いている先手の駒は、囲いの駒である。 …
まず、Stockfish風探索ルーチンは断念しました。 理由としては、GAでのパラメータ学習が上手く行かなかった事が主な要因です。 かと言って、数十あるパラメータを手調整するのは、私には無理です。 そういう訳で、探索ルーチンはABC探索の方にリトライします…
ねとらぼ @itm_nlab 人工知能の歴史にまた1ページテキサスホールデム(ポーカー)の必勝プログラムが完成 ついに不完全情報ゲームでもコンピュータが人間を上回る - ねとらぼ http://nlab.itmedia.co.jp/nl/articles/1501/09/news108.html … @itm_nlabから h…
とりあえずStockfish風探索ルーチンのパラメータ学習中。 開始から15分ほど経過した時点で、枝刈り無しとの一致率が90.9%で高速化率が600倍前後*1。まぁ、悪くない数字です。 んで、現状は一部の枝刈りが動作していない*2ので、明日はその辺を修正予定。 *1…
http://pc.watch.impress.co.jp/docs/news/20150105_682400.html 一番気になるトラックポイントですが、独立式のボタンに戻ったみたいです。 もの凄い大雑把に言うと「X230のCPU周りを最新のものに入れ替えた」感じでしょうか。 CPUは「Broadwell」と書かれ…
昼寝しちゃったんで開発進んでない…
自己対戦学習時にStockfish風探索ルーチンを使える様にして、とりあえず深さ5手で学習開始。 5五将棋だと、24時間で110万局ペースになりました。速い! 前(αβ全幅時)は3手読みで50万局でした。 あ、探索パラメータはStockfishの謎数字のままです。手調整は…
遅くなりましたが、あけましておめでとうございます。今年もよろしくお願いします。 さて、一年の計は元旦にありと言いますので、とりあえず今年の(と言うか、選手権までの)TODOでも書いてみます。 Stockfish風探索ルーチンのテスト・デバッグ。 上記探索…