GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2014-01-01から1年間の記事一覧

結局

対ssp(5五将棋モード)は勝率85%くらいになりました _| ̄|○ 気を取り直して、本将棋の方の学習に期待しましょう。

これは期待していいのか!?

5五将棋モードで三駒相対を実装して62万局学習させたパラメータ。探索深さは全幅3手+静止探索6手。 現在ssp相手に10連勝!!! 評価値の推移を見ていると、序盤からかなり優勢になってる対局が多い感じです。 出来れば今すぐ対局打ち切って「勝率100%」って…

評価関数のパラメータ数

三駒相対を実装して148万になりました。 もう一桁位は増やしても大丈夫そうだし、なんか新しい特徴を考えますか。

GA将!!!!!!!! 第2回将棋電王トーナメントバージョン&5五将棋バージョンを公開しました

下記URLからダウンロード可能となっています。 http://gasyou.is-mine.net/archive/index.html お問い合せはメール・Twitter・本ブログのコメント等でお願いします。

三駒相対の差分計算実装完了

1〜2割程度しか速くなってないですが、まぁいいか。 さて、次はGA将!!!!!!!!の公開準備をしますか。

今日やる事

GA将!!!!!!!! 電王トーナメントバージョンの公開 SR-PGLeafのアルゴリズムを整理 評価項目追加(三駒相対) Stockfishベースの探索ルーチンをテスト 来週やる、来週 とりあえず三駒相対の差分計算実装かなぁ。 差分計算を午前中に片付けて、午後からはGA将!!…

三駒相対の評価項目を追加

Bonanza風に言うと「PPP相対」になるのかな? とりあえず、昔のコードを引っ張りだして修正。アサーションに引っかからない程度には動いています。 差分計算は未実装なのでまだ遅いですが、とりあえず学習用マシンに投入。一晩走らせてみます。 明日は一通り…

Day After Day発売か!!!

Day After Dayアーティスト: FreQuency出版社/メーカー: FROMSOUNDRECORDS発売日: 2014メディア: CDこの商品を含むブログ (2件) を見る これで勝つる!

今週末にやる事

GA将!!!!!!!! 電王トーナメントバージョンの公開 SR-PGLeafのアルゴリズムを整理 評価項目追加(三駒相対) Stockfishベースの探索ルーチンをテスト

VS ssp(5五将棋モード)

結局、勝率85%前後になってダメでした。

VS ssp(5五将棋モード)

今朝時点のパラメータ(VAPSLeafで60万局弱学習時のもの)で連続対戦中。 今現在16-0-1で勝率94.1%。前にSR-PGLeafで学習したバージョンは89.4%だったので、それを超えてくれると嬉しいなぁ。 しかし、勝率90%を超えるとポロッと負けただけで勝率ガタ落ち…

よく分からん

メタパラメータ25種類のテストをしてみましたが、なんかよく分からない結果に。 βとτの2つあるんですが、τは値を0.1,0.3,1.0,3.0,10.0と変化させても収束速度には影響無し。 んで、ベータの方は大きいほど収束早いんですが、これは単にパラメータ更新幅が大…

Visual Studio Community 2013

Microsoft、“Professional”相当の無償版「Visual Studio Community 2013」を公開 - 窓の杜 VS2013の無償版にラインナップ追加だとか。 Professional相当って事は、PGOが使える? 上手く行けば多少の性能アップが見込めるんで、週末にでもインストールしてみ…

メタパラメータ設定

メタパラメータが2つあるんで、コマンドライン引数で指定可能に修正。 それから、5x5の25通りで学習させるバッチファイルを書いて学習用マシンに投入。 明日朝には結果が出てるはずなので、それを見て大体良さげなメタパラメータを採用します。

VAPSLeaf続報

三目並べで学習させて、ほぼ確実に*1収束する所までは確認しました。 メタパラメータは未調整ですが、それでも素のPGLeafより2〜3割程度収束が早い感じです。 もうちょっと調整をしてやれば更に高速化出来そうですので、まずは一晩かけて基礎データをとって…

VAPSLeaf(仮称)の実装中

とりあえず、三目並べで学習して500局以内に収束する所までは完成。 んで、TODOはこんな感じ。 デバッグ メタパラメータ調整 本将棋・5五将棋用の調整(必要なら) メタパラメータは適当に設定しただけなんで、明日にでもちゃんと調整する予定。

VAPSLeaf(仮称)実装開始

「VAPSLeaf」はVAPS with Leafの略称で、PGLeafの時と同じ安直な命名です。 まぁでも、アルゴリズムの名称が無いとクラスを作る時に不便だし、当面はこの名前で行きます。 んで、VAPSは従来手法より(エピソード数ベースでの)収束が早いのが売りらしいんで…

これ欲しい…かも

http://blog.tsukumo.co.jp/used_nagoya/2014/11/298.html 30インチWQXGAのディスプレイが税込み¥49,800。 サブモニタが壊れかけなんで買い換えるって手もありますが、24インチの新品が1万円台ってのを考えると、ちょっとすぐには手が出ませんね。

あ…

多重反復深化を実装していない事に今気付いた。 まぁいいや、明日やろう、明日。

Stockfishの探索ルーチン

一通り実装しました。テストはまだですが。 んで、速度的には今までのαβ探索ルーチンよりは速くなってるんですが、まだまだ遅い感じです。 これが、パラメータ調整不足が原因なのか、評価関数の精度不足が原因なのかは不明。 多分、後者の可能性が高いのです…

まだ探索ルーチンの修正中

「可能な限りStockfishと同じルーチンにする」というのを目標にしていましたが、早速下方修正。 色々あって、まんま同じは無理っぽいです。 という訳で、適当に端折って実装中。 現在は、静止探索を追加してムーブオーダリングを実装する所まで。 土日に全幅…

今日は探索ルーチンの修正はお休み

昨日書いた方策の修正案を試してみたいので、Stockfish化は明日以降に回して、今日は方策&評価関数の修正をしてみます。 と言っても、修正箇所はそれほど多くないはずです。 とりあえず、個々のパラメータの累積更新量を記録する様にして、そのうえで累積更…

search()関数の実装、半分完了

あ、枝刈り関連は全く書いてないんで、半分は言い過ぎかも。 ま、とりあえず全幅探索をする所は書き終わりました。 後は静止探索と各種枝刈りか。今週中には終わるかな?

強化学習では方策が重要

もう何度目になるか分からないですが、「Softmax方策がコンピュータ将棋における強化学習の最適解」か迷っています。 Softmax方策では「評価値が高い手ほど高確率で選択する」というのが基本動作ですが、別に学習中の自己対戦で勝率を上げた所で、最終的な強…

探索ルーチンの改良中

Stockfishの最新版を読みつつ、適当に端折って実装。 現在、枝刈り用テーブルの初期化と反復深化の部分だけ完了。 今週末までにはsearch()関数とqsearch()関数を実装出来ないかな。枝刈りを省略してそれ以外の部分だけなら、何とかなる…か?

選手権までのプラン

2014年11月 探索のStockfish化(シングルスレッド) 2014年12月 並列探索 正月休み 探索のパラメータ調整(可能ならGAで自動化する) 2015年1月 VAPS 2015年2月 評価項目の追加 2015年3月 評価関数の非線形化 2015年4月 チューニング 以前書いてた、さくらの…

ブログのタイトル変更しました

色々あってタイトル変更。後半部分は時々変わるかもしれません。

高速化によるR向上

GA将!!!!!!!!の探索ルーチンはシングルスレッドなんですが、これをマルチスレッド化してどの程度強くなるかを予測してみました。 んで、シングルスレッドのままで「一手一秒のGA将!!!!!!!!」と「一手四秒のGA将!!!!!!!!」をそれぞれssp(一手一秒)と連続対…

選手権に向けてやりたい事

評価関数は現状のコードをベースに改良 基本は線形の評価関数 状況次第では非線形に拡張する 自己対戦からの強化学習でパラメータ調整 VAPS(Value and Policy Search)*1とαβ探索を組み合わせてみる 評価項目を追加 三駒関係 探索はStockfish化 並列探索 各…

このCPU、久々に面白い!!!

http://pc.watch.impress.co.jp/docs/news/20141031_674098.html 一部の演算にエラーを許容する事で消費電力を削減しようという事らしいです。 んで、現在のCPUは消費電力を一定枠内*1に収めたうえで、可能な限り性能を向上させる必要があります。 なので、…