GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2015-01-01から1年間の記事一覧

Deep Learningやってる人を発見

http://burninglifegoaroun.wix.com/jokersyogi Deep Learning+強化学習(TD(0))で将棋の学習をされている様です。 これは、うかうかしてるとあっという間に追い越されそうですね。

バグってる

棋譜との一致率。 駒割のパラメータ。 棋譜からの学習をやってるんですが、何か変。大駒の価値が、一旦大きくなってから小さくなるという現象が起きています。 棋譜との一致率は順調に(?)向上しているので、オーバーフィッティングかなぁ… さて、こういう…

棋譜からの学習にトライ

探索ルーチン・評価関数のテストも兼ねて、本将棋で棋譜からの学習を実装してみました。 正直、邪法に手を染めた感もあるのですが、これで強くならなければどっかおかしいって判断出来ますし。 手法に関しては、山本@ひまわりさんのやり方をマルっとパクり…

Knights Landing情報

http://news.mynavi.jp/series/isc2015_xeon_phi/001/ 詳細はリンク先を見てもらうとして、個人的に一番気になるのはSelf-Bootという、このチップ単体でOSが起動出来る点ですね。 自作向けに登場すれば面白いと思うのですが、どうなりますかね。

Visual Studio 2015リリース

https://www.visualstudio.com/downloads/download-visual-studio-vs とりあえずCommunityとLanguage Packをダウンロードして、日本語表記に変更出来るまでは確認。 GA将もVS2015で開発する様に移行する予定ですが、とりあえず今日は別件の改修中なので後回…

Incentivizing Exploration In Reinforcement Learning With Deep Predictive Models

http://arxiv.org/pdf/1507.00814.pdf

オンラインPGLeafにL2正則化を実装

本将棋をオンラインPGLeafで学習させたのをsspと連続対局させていますが、序盤から評価値が1000点を超えたりしていて、ちょっとおかしい状態です。 んで、表題のL2正則化を実装して、現在5五将棋でテスト用に学習中。 大体良さ気な正則化係数が分かったら、…

PGLeafとSR-PGLeafの比較

それぞれ自己対局100万局で学習させた結果の、対sspの勝率です。横軸が自己対局数で、縦軸が対ssp(本将棋モード)の勝率です。 んで、残念ながらPGLeafとSR-PGLeafの差はほとんど無いです。 以前に実験した時は大分差があったと思っていたのですが、たまた…

Accelerating Stochastic Gradient Descent via Online Learning to Sample

http://arxiv.org/pdf/1506.09016.pdf

うん、つまりは

初期温度が低いと、十分に探査しないうちに「一見良さそうな」手に高評価が付いてしまい、その後の探査が十分に進まないらしい。 となると、温度を高めに保って常に探査が行われる状態にすべき? それとも、初期温度さえ適切に設定すればOK? …う〜ん、判断…

あ、レ…!?

試しに初期温度を低め(0.01)に設定したら、先手のみ学習でも収束しなくなった。 となると、後手固有の問題では無い?

後手の学習が収束しない件

試しに4x4のリバーシでテストしてみると、こっちは全く収束する気配無し。 バグかな、バグだろうなぁ… てかこれ、オンライン学習化する前からの潜在バグか?

収束速度の件

昨夜書いた三目並べでのバグ疑惑ですが、先手のみ学習だと800局で収束。後手のみだと10万局。 …けど、何が原因なんだろう。

オンライン学習化はまだ途中

三目並べで後手の収束が遅い OR 収束しないという問題が見つかったので、現在対策中。 試しに自己対局ではなく、先手は「学習あり」・後手は「学習無しで完全読み」にしてみると、先手はすぐに収束します。 という訳で、後手番の処理のどっかが間違っている…

SR-PGLeafのオンライン学習化

http://d.hatena.ne.jp/Gasyou/20150617/1434540968 前に書いた改良案は根本的な問題が見つかって、一時中断する事にしました。 んで、今度はSR-PGLeafをオンライン学習風に修正開始。 三目並べでザックリ動かした感じだと、かなり収束が早くなっていました。…

重点サンプリングの実験

とりあえず動いて、それなりに効果があるのは確認出来ました。 という訳で、明日からはGA将に組み込んで行きますか。

久々の更新

http://d.hatena.ne.jp/Gasyou/20150606/1433554794 前回から色々やってみて、どうも上手く行かない様なので色々検討中。 んで、通常のSoftmax方策+方策勾配法の枠組みでは、評価値にボーナスを与える方法はNGみたいです。 そういう訳で、エージェントの実…

探索ルーチンのリファクタリングは中断

強化学習関連でやってみたい事が出来たんで、そっちを優先します。 んで、何をするかと言うと、自己対局時に「あまり学習していないパラメータが出て来た局面を優先的に選ぶ」というものです。 今までの自己対局では「評価値が高い手ほど高確率で選ぶ」様に…

結局枝刈り関連しか修正しなかった

YssTreeのログ出力と枝刈り成功率を見比べて、いくつかあやしい挙動&バグを潰しました。 んで、ある程度の品質にはなったと思うんで、改めて学習用マシンに投入。 全幅5手+静止探索で24時間あたり30〜40万局程度の学習速度なんで、まぁ割と実用的な時間に収…

探索ルーチンのリファクタリング中

とりあえず朝から走らせた結果は、ルートノードでのαの設定にバグが有ったんで無駄になりました。 んで、とりあえず修正して学習用マシンに再投入。 それから、今日は枝刈りの成功率の表示とかPVの検証とか、細々した部分を作っていく予定。余裕があればYssT…

方向転換

VAPS(Value And Policy Search)は一旦やめて、探索ルーチンのリファクタリングに着手。 現時点で各種枝刈りを実装して、自己対局での学習に使える様にはなりました。 という訳で、5五将棋モード・全幅5手+静止探索6手の設定で学習用マシンに投入。 しばらく…

バグ、再現しねぇ _| ̄|○

自己対局で学習していると、時々「一旦勝敗を読み切った後に、1〜2手進むと読み切れなくなる」って現象があります。 んで、たま〜にしか発生しないのでログを常に出すのも非効率ですし、かと言って意図的に再現させてその近辺だけログを出すのも難しそうです…

ありゃ

またTime Upしてる… けど、まだ一回だけか。しばらく様子見します。

思考時間制御を修正したバージョンを投入

floodgateで昨夜から今朝方にかけて、GA将がTime Outしまくっていました。 原因はコンパイル時の設定ミスで、floodgate用に思考時間のマージンを大きくするのを忘れていました。 対局者の方々にはご迷惑をお掛けしました。申し訳ありません。 で、修正したバ…

VS ssp(本将棋モード)

新バージョンのSR-PGLeafでゼロから学習し直したパラメータで、枝刈り全部あり・並列探索で対局させたもの。 結果は262-0-38で勝率87.3%。95%信頼区間は83.0〜90.9。まぁまぁですね。 前は90%前後まで行ってましたが、まぁそれはパラメータファイルを取り…

探索ルーチンの実装開始

前のルーチンは改装・改築を積み重ねてゴチャゴチャし過ぎなんで、思い切って書き直す事にしました。 基本的なアルゴリズムは変えないつもりなので、明日には完成するといいなぁ。

詰将棋ルーチンの話

ネタが無いんで、選手権時にチラホラ話していた詰将棋ルーチンの話です。 ザックリ言うと「ABC探索ベースで指し手を王手と応手に限定して、Singular Marginを無限大に設定したルーチン」なんですが、詳しく書いてみます。 まず、探索打ち切りはルートノード…

SR-PGLeafで実験中

つー訳で、酒呑んで寝る。明日の朝には結果出てるだろうし。

一旦元に戻す

合議用SR-PGLeafの実験中だったんですが、一度素のSR-PGLeafに戻してちゃんと学習するかテストしてみる事にしました。 んで、ログの出力周りでちょっと足りてない部分があるので、その辺を修正中。

棋譜の力は偉大だった

試しに三目並べで神様の棋譜*1をベースに学習させたら、100局であっさり収束*2しましたよ。 自己対局での学習は時間がかかるので、棋譜ありでの学習はやっぱり優秀ですね。 *1:双方最善を尽くした際の棋譜 *2:完全読みプレイヤーと引き分けれる様になった