GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2017-05-01から1ヶ月間の記事一覧

Caffeはじめました(数カ月ぶり3度目)

Twitterでもちらっと書きましたが、GA将にDeep Learningを取り入れたくてCaffeを使ってみる事にしました。 と言っても、対局用(実戦用)の評価関数は三駒関係+αの線形のやつで、学習時のみDNNを使用する予定です。 やりたいのは、基本的にActor-Criticアル…

VS ssp(5五将棋モード)

KKPのバグを潰して、EB-PGLeafで147万局学習させたパラメータ。割引率は1.0。 結果、782勝190敗で勝率80.5%。あっさりと前回UEC杯時のパラメータを超えました。 まぁ、元々2つほどバグが有ったんで、強くなって当然っちゃ当然なんですが。 んで、現在は238…

Sample Efficient Actor-Critic with Experience Replay

https://arxiv.org/abs/1611.01224 Actor-Criticと方策勾配法・Experience Replayを組み合わせた手法らしい。 一度読んでみて、GA将に取り入れられそうなら実装しますか。 あ、それから、前書いた「好奇心」の手法ですが、「報酬がスパースな場合*1に極めて…

KKPバグってるのか正常なのか…

http://d.hatena.ne.jp/Gasyou/20170521/1495317822 の続き。 え〜、学習を進めた結果、KKPで先手55玉・後手11玉に対する先手33金の価値が、マイナスになりました。 んで、これが正常なのか異常なのかの判断が付かないんで、玉の位置は同じで33に銀が居る場…

ベースラインの測定完了

現状手持ちの最強パラメータを使って、Athlon 5350マシンでsspとのスパーリングが終わりました。 結果、647勝310敗で勝率67.6%。 という訳で、当面はこれを越えるのを目標にしていきます。

新 検証用マシンのセットアップ完了

試しにGA将のベンチマーク取ってみたら、5五将棋モードで0.8Mnps _| ̄|○ ちなみに4コアフル稼働の状態でコレですw RyzenやCore i7に敵わないのは分かりきっていましたが、ここまで遅いとは… ま、とりあえずこのマシンで当面は検証していく事にします。

満身創痍(PC環境が)

開発用マシンと学習用マシンはまぁ無事なんですが、棋力検証用マシン*1が熱暴走で頻繁に落ちる様に。ついでに、半年ほど起動していなかったfloodgate常駐用マシン*2はOSが吹っ飛んでるらしく、起動不可能に。 という訳で、FX-8350は引退してもらって、Athlon…

KKPのバグ修正、完了

まだテスト完了してないですが、とりあえず動く様にはなりました。 んで、ついでにKKP/KPPの一部パラメータをログ出力する様にしてみました。 一応、予想通りの方向に修正されている様なので、一安心。

Curiosity-driven Exploration by Self-supervised Prediction

piqcyさんのツイートから発見。強化学習において、特に高次元になると報酬が得られる機会はとても少なくなる。そこで「好奇心」、つまり新規性のある環境への到達について報酬を設定することで学習速度を上げる試み。これによりベースライン(A3C)よりも高い…

おおう、KKPにバグ発見

現在のGA将の評価関数は、Bonanza 6.0の三駒関係をベースに手番を考慮した評価も実装しています。 …で、テストしていたらKKPの手番考慮の部分でロジックの誤りを発見。 ちょっと規模が大きな修正になりそうなので、じっくり設計してから修正する事にしました…

テスト用のログ出力完了

100局面ランダムに生成して、局面評価に使用した全特徴量の名前を出力完了。 という訳で、楽しい楽しいテストの時間です (`・ω・´)

評価関数のテスト中

KPP_手番側14_手番側飛15__持ち駒(相手側_歩_0枚)(0_15_28923)(1242732) : -0.0779578 * 0.25, score==-0.253623 KPP_相手側43_手番側飛15__持ち駒(相手側_歩_0枚)(1_13_28923)(2821337) : -0.0392326 * 0.25, score==-0.263431 PP_手番側飛15__持ち駒(…

個々の駒の位置評価に対するQ学習の適用

前にもブログに書いたか実装したかした覚えは有るんですが、見つからなかったので再度書いてみる。 んで、やる事。例えば駒の位置評価*1を考える。 この時、「先手2四歩の価値」は「max(先手2三歩の価値,先手2三と金の価値)」に近い(はず)。 なので、パ…

面白い終局図が出来た

10700局終了 +---+---+---+---+---+ | | | |v角|v王| +---+---+---+---+---+ | | | |^金|v歩| +---+---+---+---+---+ | | |^銀| | | +---+---+---+---+---+ | |^銀| | | | +---+---+---+---+---+ |^王| | | | | +---+---+---+---+---+ 歩,香,桂,銀,金,角,飛,…

思い付いたら即・実・装!!!

上で書いたアイデア、早速実装してみました。 んで、とりあえずアサーションに引っ掛からない程度には動く様になったので、学習用マシンに投入。 ただ、まだちゃんとテスト出来てないんで、明日にでもテストしてみます。 多分2〜3日位は収束するまで時間かか…

geanee WPJ40-10-WH購入しました

geanee Windows Phone 4インチ ホワイト WPJ40-10-WH出版社/メーカー: geaneeメディア: オフィス用品この商品を含むブログを見る 税込み¥5,800の激安Windows 10 Mobile機。更に、アマゾンギフト券がタップリあったから実質負担ほぼ0円。 作りとしてはチープ…

COMBINING POLICY GRADIENT AND Q-LEARNING

https://pdfs.semanticscholar.org/c59d/19162ca24f412e4bbb10095c942c71815a57.pdf Abstract読んだ限りでは、表題そのまんまな内容らしい。