GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2014-01-01から1ヶ月間の記事一覧

え〜

対sspの連続対戦は、勝率10%未満でした。 んで、ちょっとソースを眺めてたらパラメータ修正部分にバグ発見。直して学習用マシンに再投入しました。 …こんな調子で選手権間に合うのかな?

夜の一人遊び

えー、逆強化学習は上手く行かないので当面放置する事にしました。 で、合議方策勾配法のコードを引っ張り出してきてそっちをリトライ。 とりあえず、1クライアントの合議で強くなるかを試してます。 「合議になってない」ってツッコミはごもっともですが、…

さて、逆強化学習がとりあえず実装完了したんですが…

一晩たっても4x4リバーシが収束しない _| ̄|○ バグかなぁ…バグだろうなぁ……

続・JavaShogiLib(1.0)

http://d.hatena.ne.jp/Gasyou/20140127/1390823161 昨日書いたライブラリ申請ですが、無事通りました。 どれだけニーズが有るかは不明ですが、とりあえず報告まで。

JavaShogiLib(1.0)

http://gasyou.is-mine.net/archive/index.html WCSCの旧ライブラリとして登録していたJavaShogiLibですが、新ライブラリでも利用可能になる様、CSAに登録申請しました。 よっぽどの事が無い限り、数日中には登録・公開されるはずです。 …正直、れさぴょん f…

続・逆強化学習

とりあえず文献を読んで、「Projection Method(PM)を用いた見習い学習」の流れをざっと把握してみました。 んで、どうもこれ、強化学習より教師あり学習に近いみたいですね。 まぁ、逆強化学習の発想からしてそうなるのは当然かもしれませんが。 で、まず…

逆強化学習

https://kaigi.org/jsai/webprogram/2012/pdf/584.pdf つーモノがあるらしいです。 通常の強化学習は、エージェントに報酬関数(と環境)を与えると最適な方策を出力するものです。 んで、逆強化学習はと言うと、最適な方策を与えると報酬関数を出力してくれ…

最近興味がある事

自己対戦強化学習をするにあたり、ソフトマックス方策によるサンプリングが最適では**無い**んじゃないかと思えてきました。 ある程度の棋力のある人が、例えば「飛車角をタダで取れれば勝率が上がるよ」って言われても、大抵の人は「あぁそうですね」としか…

でかいバグ発見

パラメータの更新タイミングを間違えていました _| ̄|○ という訳で一晩分の学習結果がパーになりました。 現在リトライ中ですが、明日朝までに収束するかなぁ…

デバッグデバッグ

昨夜のバージョンはかなり大きいバグがあって、桂馬の価値が異常になっていました。 んで、そのバグを潰してリトライ中。 学習は5五将棋モードで1日20万局ペースなんで、明日の夜には収束しているはずです。 それから、USIの方も合議で探索する様に機能追加…

合議方策勾配法がほぼ完成

とりあえず三目並べ・4x4リバーシはちゃんと収束したんで、今度は5五将棋で学習中。 まだバグが有るかもしれないんで、学習用マシンはリリースモード・開発用マシンはアサーション有効で走らせてます。 んで、実際に対局させるにはUSIの方の探索ルーチンを呼…

合議方策勾配法の途中経過

まだマルチスレッド化とか細々した部分は残っていますが、とりあえず三目並べで学習させれる様にはなりました。 んで、ちゃんと引き分けに収束しているので、明日からはリバーシ・将棋の学習に必要な部分を実装していく予定です。

あう・・・

Nexus 7のカスタマイズに没頭してて気付いたらこの時間… 今日中に合議方策勾配法を実装するのは無理かなぁ…

今更Nexus 7(2012)購入

近所のエディオンに行ったら、旧モデルが¥12,800で投げ売りされてたので、思わず購入。 当面は外で論文読んだりするのに使おうかと思います。

詰将棋ルーチン有りでの対ssp勝率

60-0-46で勝率56.6%。95%信頼区間は46.6〜66.2。 多分詰将棋ルーチン無しよりは強くなってるはず。 んで、自己対戦約21万局分*1のパラメータが出来てるんで、今度はこっちで連続対戦させてみます。 *1:10日ほどかかってます

合議方策勾配法の使用メモリ量

トータル14GB程必要という結果になりました。(12クライアントの場合) とりあえず開発用マシン(メモリ24GB)でも動くし、当面はこれでいいかな。 さて、それじゃぁ今日中にパラメータ修正部分を作って、明日は残りの部分の実装+デバッグですね。

さて

選手権まであまり日が無いので、そろそろ合議方策勾配法の実装に着手します。 とりあえず今日明日でリバーシの学習までやって、来週の平日に将棋の学習をさせようかと思います。

連続対戦用の乱数設定

http://d.hatena.ne.jp/Gasyou/20140109/1389219550 以前乱数加算をしていない結果を載せましたが、結局あれがベストの設定だったみたいです。 乱数加算すると、どうしても弱くなってしまうので、あんまり正確な結果になりませんでした。 という訳で、当面は…

上で書いた連続対局

エラーで止まってました _| ̄|○ 原因はケアレスミスだったんで、そこを修正してリトライ。明日朝まではかかるかな。 floodgateは2週間レーティング1400前後をウロチョロしてます。まぁ、これなら上出来かな。

sspとの連続対局

前に書いた勝率43%は間違いでした。 間違いと言うか、正確に書くと「評価値に乱数を足していなかったので、同一の手順で勝敗が決したケースが多い」という状況です。 試しに終局時の局面のハッシュコードをログ出力させてみたら、昨夜からの107戦(48-0-59…

う〜ん、う〜ん…

何か、終盤の寄せ方が危なっかしいなぁ。 駒得してるんだからジリジリ寄せてけば良いはずなのに、大駒ぶった切って一気に決めようとする。 自己対戦で強化学習なので終盤は割と正確に学習しているはずなのに、この棋風は何なんだろう… これじゃぁ上位の相手…

う〜ん

最新バージョンのパラメータ、何か攻撃的すぎる気が。棒銀の後に王手飛車くらったりしてるし… まぁ、とりあえず一晩様子を見てみますか。 あ、そうそう。対局の途中経過をメールで通知する機能が欲しいなぁ。Visual C++で可能なんだろうか?

色々修正

とりあえず探索の強化は後回し。 それから、報酬は勝敗に応じた値だけでもそこそこ強くなりそうなので、下手に手を加えない事にしました。 という訳で、まずは実戦用に詰将棋ルーチンを実装。その後に合議方策勾配法をやるって事で。 合議方策勾配法は色々と…

白星スタート

http://wdoor.c.u-tokyo.ac.jp/shogi/view/2014/01/06/wdoor+floodgate-900-0+montecarlo+Gasyou_Atom-D510_1c1t+20140106203008.csa うん、これは幸先良いですね。

だん☆ねん

え〜、タバコ、吸っちゃいました (-_-)t~ うん、やっぱり税金たっぷり払って早死にするのが国の為になりますし。うん。<言い訳です あ、そうそう。軽くググってみたら、「タバコの半分は税金で出来ています」って感じらしいですね。

棒銀ぽい戦法を覚えた?

自己対戦10万局弱のパラメータ(現時点で最新のもの)です。 記念に棋譜をペタリ。 32手目7四銀が無理攻めかと思いきや、そのまま押し切って勝っちゃいました。 よし、イイ感じです、これは。

NVIDIA Tegra K1

http://www.4gamer.net/games/244/G024410/20140106001/ 2GHzオーバーの2又は4コアCPU+192コアのGPUですから、「5年ほど前のミドルレンジPCと同程度の性能のチップがスマホ・タブレットに載る」って感じでしょうか。 私はスマホにそこまでの性能を求めては…

参戦します

上で書いた勝率43.6%の評価関数で。 マシンがAtom D510なのでかなり遅い(序盤で20knps行くか行かないか位)なんで多分弱いですが。 とりあえず、Rが1000行ったら上出来かな。 あ、ちなみに学習ルーチンですが、自己対戦でPGLeafを使って学習したやつです。…

VS ssp(本将棋モード)

129-0-167で勝率43.6%。95%信頼区間は37.9〜49.4。 まだsspよりは弱いですが、昨日よりはだいぶマシになりました。 自己対戦学習の対局数が8万弱なので、まだ伸び代はあると信じて学習を続行します。

あれ、sspどっかバグってる?

詰まない玉を詰ましに来たんですが…?? 今までそういうケースは見た事無いんで、多分レアケースとは思いますが。 ただ、連絡先のメアドが見つからないので、当面放置するしかないかなぁ…。