GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2016-08-01から1ヶ月間の記事一覧

ThinkPad 13ポチった

金はまぁそれなりには余裕があるので、つい。 んで、現状のThinkPadのモバイルノート系列、どれも一長一短なんですよねぇ。 X1 Carbon : メモリ増設不可で、MAX8GBだか16GBまでしか選べない。 X260 : キーボードがウンコ。"["とか"]"とかの幅が狭くて、使い…

バンディット問題の理論とアルゴリズム

バンディット問題の理論とアルゴリズム (機械学習プロフェッショナルシリーズ)作者: 本多淳也,中村篤祥出版社/メーカー: 講談社発売日: 2016/08/25メディア: 単行本(ソフトカバー)この商品を含むブログ (1件) を見る 届いた。明日読む。 目次だけ眺めた感…

Efficient Exploration for Dialog Policy Learning with Deep BBQ Networks & Replay Buffer Spiking

http://arxiv.org/pdf/1608.05081.pdf DQNの次はBBQらしいですよ!

これだけ読めば分かる(かもしれない)強化学習@コンピュータ将棋界

はじめに 「強化学習 将棋」でググッてこのブログに来て貰う人が時々いますが、そう言えばちゃんとした概要を書いていなかったので、自分の復習がてら書いてみます。 んで、まず検索すると出てくる二大キーワード。 マルコフ決定過程(MDP:Markov Decision P…

ここらで問題点を整理しとこう

先手と後手で共通の評価関数を使うと、何故か学習が上手く行かない。 対sspの勝率が、一旦9割を超えてから下がる現象が時々ある。 対sspの勝率が不安定(学習するたびに異なる)。 …問題点だらけだな、こりゃ。

まだまだまだデータ採取中

以前の先後で評価関数のインスタンスを分けた場合のグラフに、先手のみ・後手のみ学習のログを追加したものです。 んで、先手のみ学習の結果が異常に良いのが気になりますね。 一旦勝率上がってから下がるのは、ベースラインの設定をしていないのが原因かも…

まだまだデータ採取中

先手と後手で評価関数のインスタンスを分けて、別個に学習した結果です。 まず、正則化無し・開発用マシンで実行。 次に、正則化有り・学習用マシンで実行。 正則化有りの方は何か結果が変ですが、とりあえずは無視して上の正則化無しの結果だけ検証。 後手…

データ採取、少しだけ完了

GA将対sspの勝率の推移です。「通算」とあるのが先手・後手トータルでの勝率で、後は先手だけ・後手だけの値。 まず、正則化無し、開発用マシンで実行。 次に、正則化係数1E-4、学習用マシンで実行。 上は後手だけ、下は先手だけ勝率が高いです。 んで、この…

むぅ…

上の結果、ログをよく見ると先手の勝率だけ異常に高い(8割〜9割程度)。 GA将側の先後での勝率をログに出してなかったから、出す様に修正して再度学習中だけど、どうなる事やら。 ひょっとしたら、後手の学習ロジックのどっかにバグが有る可能性も有ります…

オーバーフィッティングかな?

ssp相手に対局しての学習で、勝率が一旦上がってから下がってる。 学習条件は下記の通り。 5五将棋。 PGLeaf。 全幅5手+静止探索。 ssp側は1手1秒。 よし、正則化を有効にしてみよう。

結局、SkylakeのWindows 7サポートは2020年1月14日まで

http://pc.watch.impress.co.jp/docs/news/1014911.html 以前はサポート期間が短縮されるという話でしたが、結局それは撤回されたみたいですね。 ただ、今後登場するKaby LakeはWindows 10のみのサポートとなるみたいなので、「最新世代のCPUでWindows 7」っ…

PGMC(仮称)、とりあえず完成

アサーション有効・無効の2バージョンを2台のマシンで並行して走らせて寝る事にします。 んで、明日は本格的にテストして、それからメタパラメータの調整かな。

PGMC(仮称)、9割がた実装完了

後は強化学習エージェントとしての雑多なメソッドを実装すれば完了。今日中には出来るでしょう。 んで、ざっくり見てみた感じ、原始モンテカルロの割には「それらしい」手を選択出来ている模様。 とりあえず、今夜はアサーション有効・無効の2バージョンを並…

PGMC(仮称)の初期局面での結果

15:17:26 @ core::rl::PgMcAgent::goBench() > 26.324602sec, 160388773nodes, 379.9kplayout/sec 15:17:26 @ core::rl::PgMcAgent::goBench() > selectedMove==(25)→(34)+角, score==0.000023(1892895), pi==0.107605 15:17:26 @ core::rl::PgMcAgent::goBe…

どうぶつしょうぎモードは断念&新学習アルゴリズムの実装開始

神様相手に学習するのは無理ゲーすぎる感じです。 んで、5五将棋・本将棋用に原始モンテカルロと方策勾配法を組み合わせた学習アルゴリズムを実装中。 とりあえずプレイアウト部分のベンチマークを書いたけど、6コアマシンで340k playout/secは出た。 速度的…

第10回UEC杯 in GAT5五将棋大会は2017/03/08または09

http://minerva.cs.uec.ac.jp/~uec55shogi/wiki.cgi?page=diceshogi%5Ftournament という訳で、当面の目標は来年3月になりました。 となると、5五将棋の学習一式を3月までに完成させておいて、3〜4月は本将棋のほうで学習・調整ですかね。 まずは、5五将棋大…

どうぶつしょうぎの完全解析結果をWindows(Visual C++)で使う方法(大雑把なまとめ)

https://www.tanaka.ecc.u-tokyo.ac.jp/ktanaka/dobutsushogi/ URLは再掲。上記サイトのプログラムを以下の環境で動かす事に成功したので、メモ。 OS:Windows 7 Professional x64 開発環境:Visual Studio Community 2015 プログラムの修正が必要だった箇所は…

どうぶつしょうぎモードの実装中

https://www.tanaka.ecc.u-tokyo.ac.jp/ktanaka/dobutsushogi/ 現在、田中先生の完全解析の結果をGA将に組み込む作業の途中です。 …なんですが、一部の局面で正常に最善手を取得出来ない現象が発生。困りました。 上記サイトのプログラムが(多分)UNIX用で、…

一応、学習出来る様にはなった

将棋盤クラスは完成。打ち歩詰めとか二歩のチェックを外して、トライルールにも対応。 という訳で、一晩学習させてみます。 …引き分け率が異常に高くて、正直期待薄ですが。

合法手生成までは完了

20:49:00 @ wmain() > +---+---+---+ 20:49:00 @ wmain() > |vき|vラ|vぞ| 20:49:00 @ wmain() > +---+---+---+ 20:49:00 @ wmain() > | |vひ| | 20:49:00 @ wmain() > +---+---+---+ 20:49:00 @ wmain() > | |^ひ| | 20:49:00 @ wmain() > +---+---+---+ 20…

どうぶつしょうぎの実装開始

https://www.tanaka.ecc.u-tokyo.ac.jp/ktanaka/dobutsushogi/ とりあえず上記サイトのプログラムをダウンロードして、必要なソースをGA将のプロジェクトに追加。 んで、現在将棋盤クラスのどうぶつしょうぎ対応をしている所です。 どうぶつしょうぎはそこそ…