なんぞこれ

上で書いた2番目の学習で得たパラメータですが、試しに稲庭将棋さんとスパーリングしてたら変な事になってます。なんなんでしょうね、これ？「浮き無敵囲い？」それとも「リッチブリッジもどき？」金銀が前進するのは予想の範囲内ですが、まさか王将まで…

2012-09-25

上手く行ってるのかいないのか

開発日記

本将棋で非MDP環境の報酬設定にして、ちゃんと学習してくれるのか試してみました。まず最初は「勝っても負けても、駒の前進ボーナス（1回あたり+1）を与える」＆「探索無し」って条件で学習。勝ち負けに応じた報酬を与えていないので、だらだら対局を長引か…

2012-09-25

う〜ん、ちょっと欲しいかも

コンピュータ関連

http://pc.watch.impress.co.jp/docs/news/20120925_562034.html 新発売のThinkPad Edge E135。重量的には今持ってるX220と同程度だけど、ディスプレイが11.6インチになって少し小さくなってます。個人的には、AMDのE2-1800プロセッサが載ってるってのがキ…

2012-09-23

とりあえず今後の方針を決めた

開発日記

当面の目標はGPW杯にして、それまでに本将棋でちゃんと指せるのを作りたいです。んで、まずは学習・探索のマルチスレッド化は置いといて、シングルスレッドで強化していく方針で。最初は報酬に駒の前進ボーナスを与えるのをちゃんと動く様にして、その後3…

2012-09-23

なかなか上手く行かない

開発日記

http://d.hatena.ne.jp/Gasyou/20120920/1348153571 で書いた持ち駒の組み合わせの評価項目は実装しました。割りとシンプルなコードなんで、サクッと書いてざっとテストして投入。今学習用マシンで動いているのはこのバージョンです。んで、その後金銀桂馬…

2012-09-22

報酬設定ってどうやれば良いんだろう…

開発日記

とりあえずやりたいのは「駒（金銀桂馬）を敵陣に向かわせて、ちゃんと攻めれる様に学習させたい」って事なんですが、その為の報酬設定に悩む。以前は報酬の基本値を「勝ったら+1、負けたら-1」にして、それに「金銀桂馬を前に進めたら1回あたりボーナス0.0…

2012-09-21

とりあえずやりたい事

開発日記

合議方策勾配法で学習＆学習をマルチスレッド化する金銀桂馬の前進ボーナスを復活させて学習 3x3マス内の3駒の相対位置関係の評価を復活どれも以前実装したものですが、諸事情によりお蔵入りしていたんで復活させたいです。最後の評価項目の追加は、差分…

2012-09-21

入玉関連の評価値

開発日記学習経過

一晩かけて約8,300局自己対戦した結果ですが、入玉関連のパラメータ（の一部）はこんな感じになりました。王将の敵陣までの経路_距離1 : -0.002580 王将の敵陣までの経路_距離2 : -0.011588 王将の敵陣までの経路_距離3 : -0.022872 王将の敵陣までの経路_…

2012-09-20

学習用マシンもfloodgate参戦

開発日記

http://wdoor.c.u-tokyo.ac.jp/shogi/tools/view/show-player.cgi?event=LATEST&filter=floodgate&show_self_play=1&user=Gasyou_Core_i7_3770K_1c2t%2Bc7828bf7bd39e79c7570f9da86728161 初戦はGasyou_Atom-D510_1c2tと当たりました。んで、マシンスペック…

2012-09-20

メモリが余ってるんで

開発日記

ハッシュ表のサイズを全幅・静止探索共に1.5GBにしてみました。ざっと2^26個のエントリーが格納可能になりました。てか、学習用マシン、メモリ32GBはやり過ぎ（お金の無駄遣い）だったかも。正直、そんだけメモリがあっても使い切るケースが思い付かないで…

2012-09-20

入玉率結構高い

開発日記学習経過

昨夜から学習を始めて現在4,200局経過しました。で、気になる入玉の発生確率ですが、概ね3〜6％程度で推移しています。学習初期は最大17％でしたが、これはたまたまでしょう、多分。今回は特別入玉を目指す様なカラクリは無いんですが、評価項目を増やした…

2012-09-20

持ち駒の種類による評価項目

アイデアメモ

アイデアって程ではないんですが、「持ち駒の種類を評価すれば、ちょっとは強くならないかな」と思ったもので。アルゴリズムとしては2つ考えていて、1つは「持ち駒が1種類だけならx点、2種類ならy点…」って感じの評価。要するに、色々持っていればそれだけ…

2012-09-18

俺、GPWが終わったらオーバークロックするんだ…

コンピュータ将棋

とかって死亡フラグ言ってると本当にマシンが死にそうですが、学習用マシンはOCしても結構行けそうな感じなんで（主にウェブ上のOC報告がソースですが）、もう少し定格で安定駆動しているのを確認してからOCしてみようかと。１コア稼働時は4.8GHz、4コア時…

2012-09-18

白砂将棋さんのサイトから飛んできた人が多いと思っていたら

コンピュータ将棋

今年の大会の自戦記に白砂将棋vsGA将戦の解説を書いて貰えてたみたいです。私は自分では将棋の良し悪しが分からないので、とても参考になります。この場を借りてお礼を m(_ _)m というか、GA将!!!!!さんが取り組んでいるという強化学習の話をいろいろお聞き…

2012-09-18

入玉用のパラメータを追加

開発日記

http://d.hatena.ne.jp/Gasyou/20120915/1347673543 で書いた学習ですが、学習初期は入玉率が結構高くて、100局中5〜10局は入玉してます。多分、ソフトマックス方策の初期温度を高めに設定している影響だとは思いますが、せっかくなんで入玉勝ちを正しく評価…

2012-09-15

パラメータを初期値に設定しなおして投入

開発日記学習経過

目標探査率のランダムウォークを有効にした上で、パラメータを初期値（ごく小さな乱数）から再度学習させてみます。基本的には前の設定と同じですが、静止探索深さだけは1段目6手・2段目無制限に変更しました。とりあえずかなり時間はかかるかと思いますが…

2012-09-15

一昨日の5五将棋の続き

開発日記学習経過

http://d.hatena.ne.jp/Gasyou/20120913/1347540962 正確な数字は酔った勢いでファイル消しちゃって分かんないんですが、確かssp相手に勝率70％前後でした。あんまり伸びてないですね。ただまぁ、悪い方向には行ってないみたいなんで、本将棋の方にも同じ様…

2012-09-14

Haswell登場時期

コンピュータ関連

「通常電圧版のモバイルCPUとデスクトップCPUが2013年前半，Ultrabook向けのCPUやSoCは2013年後半」（Skaugen氏） http://www.4gamer.net/games/132/G013298/20120914035/ 「来年前半」って話と「来年後半」って噂が飛び交ってましたが、どっちも正しかった…

2012-09-13

VS ssp（5五将棋モード）

開発日記学習経過

一昨日書いた目標探査率をランダムウォークさせる学習ですが、ようやく適切なメタパラメータ*1が決まったんで、一晩連続対局させてみました。学習条件は方策勾配法・全幅1手＋静止探索4手で線形の評価関数を用いるものです。んで、約24万局学習後のパラメ…

2012-09-12

Haswellの詳細情報＆登場時期

コンピュータ関連

http://pc.watch.impress.co.jp/docs/column/kaigai/20120912_559065.html http://itpro.nikkeibp.co.jp/article/NEWS/20120912/422263/ Sandy Bridge世代からHaswell世代での性能に影響しそうな大きな改良点は実行ユニットの増設 AVX2命令での積和演算対応…