GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2012-09-01から1ヶ月間の記事一覧

なんぞこれ

上で書いた2番目の学習で得たパラメータですが、試しに稲庭将棋さんとスパーリングしてたら変な事になってます。 なんなんでしょうね、これ? 「浮き無敵囲い?」それとも「リッチブリッジもどき?」 金銀が前進するのは予想の範囲内ですが、まさか王将まで…

上手く行ってるのかいないのか

本将棋で非MDP環境の報酬設定にして、ちゃんと学習してくれるのか試してみました。 まず最初は「勝っても負けても、駒の前進ボーナス(1回あたり+1)を与える」&「探索無し」って条件で学習。勝ち負けに応じた報酬を与えていないので、だらだら対局を長引か…

う〜ん、ちょっと欲しいかも

http://pc.watch.impress.co.jp/docs/news/20120925_562034.html 新発売のThinkPad Edge E135。重量的には今持ってるX220と同程度だけど、ディスプレイが11.6インチになって少し小さくなってます。 個人的には、AMDのE2-1800プロセッサが載ってるってのがキ…

とりあえず今後の方針を決めた

当面の目標はGPW杯にして、それまでに本将棋でちゃんと指せるのを作りたいです。 んで、まずは学習・探索のマルチスレッド化は置いといて、シングルスレッドで強化していく方針で。 最初は報酬に駒の前進ボーナスを与えるのをちゃんと動く様にして、その後3…

なかなか上手く行かない

http://d.hatena.ne.jp/Gasyou/20120920/1348153571 で書いた持ち駒の組み合わせの評価項目は実装しました。割りとシンプルなコードなんで、サクッと書いてざっとテストして投入。今学習用マシンで動いているのはこのバージョンです。 んで、その後金銀桂馬…

報酬設定ってどうやれば良いんだろう…

とりあえずやりたいのは「駒(金銀桂馬)を敵陣に向かわせて、ちゃんと攻めれる様に学習させたい」って事なんですが、その為の報酬設定に悩む。 以前は報酬の基本値を「勝ったら+1、負けたら-1」にして、それに「金銀桂馬を前に進めたら1回あたりボーナス0.0…

とりあえずやりたい事

合議方策勾配法で学習&学習をマルチスレッド化する 金銀桂馬の前進ボーナスを復活させて学習 3x3マス内の3駒の相対位置関係の評価を復活 どれも以前実装したものですが、諸事情によりお蔵入りしていたんで復活させたいです。 最後の評価項目の追加は、差分…

入玉関連の評価値

一晩かけて約8,300局自己対戦した結果ですが、入玉関連のパラメータ(の一部)はこんな感じになりました。 王将の敵陣までの経路_距離1 : -0.002580 王将の敵陣までの経路_距離2 : -0.011588 王将の敵陣までの経路_距離3 : -0.022872 王将の敵陣までの経路_…

学習用マシンもfloodgate参戦

http://wdoor.c.u-tokyo.ac.jp/shogi/tools/view/show-player.cgi?event=LATEST&filter=floodgate&show_self_play=1&user=Gasyou_Core_i7_3770K_1c2t%2Bc7828bf7bd39e79c7570f9da86728161 初戦はGasyou_Atom-D510_1c2tと当たりました。 んで、マシンスペック…

メモリが余ってるんで

ハッシュ表のサイズを全幅・静止探索共に1.5GBにしてみました。ざっと2^26個のエントリーが格納可能になりました。 てか、学習用マシン、メモリ32GBはやり過ぎ(お金の無駄遣い)だったかも。正直、そんだけメモリがあっても使い切るケースが思い付かないで…

入玉率結構高い

昨夜から学習を始めて現在4,200局経過しました。 で、気になる入玉の発生確率ですが、概ね3〜6%程度で推移しています。学習初期は最大17%でしたが、これはたまたまでしょう、多分。 今回は特別入玉を目指す様なカラクリは無いんですが、評価項目を増やした…

持ち駒の種類による評価項目

アイデアって程ではないんですが、「持ち駒の種類を評価すれば、ちょっとは強くならないかな」と思ったもので。 アルゴリズムとしては2つ考えていて、1つは「持ち駒が1種類だけならx点、2種類ならy点…」って感じの評価。要するに、色々持っていればそれだけ…

俺、GPWが終わったらオーバークロックするんだ…

とかって死亡フラグ言ってると本当にマシンが死にそうですが、学習用マシンはOCしても結構行けそうな感じなんで(主にウェブ上のOC報告がソースですが)、もう少し定格で安定駆動しているのを確認してからOCしてみようかと。 1コア稼働時は4.8GHz、4コア時…

白砂将棋さんのサイトから飛んできた人が多いと思っていたら

今年の大会の自戦記に白砂将棋vsGA将戦の解説を書いて貰えてたみたいです。私は自分では将棋の良し悪しが分からないので、とても参考になります。この場を借りてお礼を m(_ _)m というか、GA将!!!!!さんが取り組んでいるという強化学習の話をいろいろお聞き…

入玉用のパラメータを追加

http://d.hatena.ne.jp/Gasyou/20120915/1347673543 で書いた学習ですが、学習初期は入玉率が結構高くて、100局中5〜10局は入玉してます。多分、ソフトマックス方策の初期温度を高めに設定している影響だとは思いますが、せっかくなんで入玉勝ちを正しく評価…

パラメータを初期値に設定しなおして投入

目標探査率のランダムウォークを有効にした上で、パラメータを初期値(ごく小さな乱数)から再度学習させてみます。 基本的には前の設定と同じですが、静止探索深さだけは1段目6手・2段目無制限に変更しました。 とりあえずかなり時間はかかるかと思いますが…

一昨日の5五将棋の続き

http://d.hatena.ne.jp/Gasyou/20120913/1347540962 正確な数字は酔った勢いでファイル消しちゃって分かんないんですが、確かssp相手に勝率70%前後でした。あんまり伸びてないですね。 ただまぁ、悪い方向には行ってないみたいなんで、本将棋の方にも同じ様…

Haswell登場時期

「通常電圧版のモバイルCPUとデスクトップCPUが2013年前半,Ultrabook向けのCPUやSoCは2013年後半」(Skaugen氏) http://www.4gamer.net/games/132/G013298/20120914035/ 「来年前半」って話と「来年後半」って噂が飛び交ってましたが、どっちも正しかった…

VS ssp(5五将棋モード)

一昨日書いた目標探査率をランダムウォークさせる学習ですが、ようやく適切なメタパラメータ*1が決まったんで、一晩連続対局させてみました。 学習条件は方策勾配法・全幅1手+静止探索4手で線形の評価関数を用いるものです。 んで、約24万局学習後のパラメ…

Haswellの詳細情報&登場時期

http://pc.watch.impress.co.jp/docs/column/kaigai/20120912_559065.html http://itpro.nikkeibp.co.jp/article/NEWS/20120912/422263/ Sandy Bridge世代からHaswell世代での性能に影響しそうな大きな改良点は 実行ユニットの増設 AVX2命令での積和演算対応…

VS Bonanza(一手一秒)

なんと! 224連敗でした!! _| ̄|○ まだまだ追い越せないですねぇ… 先は長い……

VS Bonanza(3手読み)

75-2-92で勝率44.9%、95%信頼区間は37.2〜52.8になりました。 もっと勝率低いかと思っていたので意外ですね。 今度は、試しに双方一手一秒でやらせてみます。まぁ、これは大幅に負け越すでしょうが。

ここ数日の出来事

えー、日曜夜くらいから自宅のインターネット回線が不調で、ブログに書きたいけど書けない状態でした。 んで、とりあえず順番に書いてみます。 新PC購入 学習用マシンとして1台組みました。 スペックはCore i7 3770KにZ77マザー、メモリは32GBって感じです。…

あーもう!

画面が足りない!!! コマンドプロンプト3つでそれぞれ別の学習をやってて、学習用マシンとfloodgate参戦用マシンの画面をリモートデスクトップで表示して、その他ゴチャゴチャと色々表示してると、全部いっぺんには見れない _| ̄|○ 出来れば22インチ位の…

ちょっとだけ改良

えー、まず現状から。 GA将!!!!!!では、自己対戦での学習時の方策*1にはBoltzmann分布をベースとしたソフトマックス方策を使っています。 で、これは「基本的にはランダムに手を選ぶが、評価値が高い手ほど高確率で選択する」っていうものです。 そこで、手…

来年参加される人かな?

http://d.hatena.ne.jp/tara0926/ まだブログ開設の記事しか無いですが、発見したのでとりあえずリンクしてみます。 「リンリン」ってのがソフト名だともいますが、ひょっとして鏡音さん?

旧バージョン評価関数 VS ssp(本将棋モード)

昨夜からやってた分ですが、249-3-135で勝率64.8%、95%信頼区間は59.8〜69.6になりました。 意外に強いんで、これを上回るのは大分先になるかもしれません。 んで、とりあえず現時点でのパラメータを連続対戦させてみます。約22万局学習後のパラメータです…

floodgate投入は見送り

とりあえずAtomマシンでTDLeaf(λ)バージョンのパラメータを一晩連続対戦させて、どの程度の勝率になるか調べてみます。 んで、その後は明日夜バージョンのパラメータで連続対戦、勝率が今日まで使ってたパラメータより大幅に伸びる様なら、そのまま学習を続…

VS ssp(本将棋モード)

マシン3台で同じ実行ファイル・パラメータで連続対局した結果です。GA将はほぼシングルスレッド*1です。対局相手のsspはGA将と同じそれぞれのマシンで動作させ、互いにPonder無しです。 あと、i7マシンは学習プログラムやらなんやらが動いていて比較的高負荷…

VS ssp(本将棋モード)

結局292-5-233で勝率55.6%、95%信頼区間は51.3〜59.9になりました。 昨夜の時点では136-2-81で95%信頼区間が55.9〜69.1でしたから、なんかおかしい気もします。偶然かもしれませんが。 んで、ちょっと気になるのは、昨夜寝る前にマシンに負荷のかかるプロ…