GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2016-01-01から1年間の記事一覧

A New Softmax Operator for Reinforcement Learning

https://arxiv.org/pdf/1612.05628.pdf

ステイルメイト出ました〜〜〜

30000局終了 +---+---+---+---+---+ | | | | | | +---+---+---+---+---+ | | | | | | +---+---+---+---+---+ |v歩| | | |v全| +---+---+---+---+---+ | | |v王|v金| | +---+---+---+---+---+ |^王| | | | | +---+---+---+---+---+ 歩,香,桂,銀,金,角,飛, 0, …

HYPERサイコロ将棋モード実装中

とりあえず、サイコロを振って出目に応じて手生成する部分は実装完了。それから、千日手の判定ルーチンも無効化完了。 ルール部分で残るは「ステイルメイトの禁」だけですが、これは探索ルーチン側で対応する事にします。 んで、現在はテスト中ですが、明日…

Road to 第1回UEC杯 in GATサイコロ将棋大会

http://minerva.cs.uec.ac.jp/~uec55shogi/wiki.cgi?page=%C2%E81%B2%F3UEC%C7%D5+in+GAT%A5%B5%A5%A4%A5%B3%A5%ED%BE%AD%B4%FD%C2%E7%B2%F1 ジムでエアロバイク漕ぎながらプランを練ってきたんで、まとめておきます。 スケジュール 2016/12末まで HYPERサイ…

コンピュータ将棋 Advent Calendar 2016 開催

http://d.hatena.ne.jp/hiraoka64/20161201/1480603616 トップバッターの平岡さんの記事が公開されていたので、早速読んでみました。開発を楽しんでいる様子が分かって、読んでいて面白かったです。 んで、私も12/13に投稿予定なんですが、平岡さんのクオリ…

ファミコンのソフトと対局してみた

ちょっとした事情でファミコンソフトの「将棋 竜王戦」を入手したので、第25回選手権バージョンのGA将と対局させてみました。 手合割:平手 先手:Gasyou8_8.0.35e 後手:かなた先生 手数----指手---------消費時間-- 1 2六歩(27) (00:09 / 00:00:09) 2 5…

GPW杯5五将棋大会2016で優勝しました

http://minerva.cs.uec.ac.jp/~uec55shogi/wiki.cgi?page=GPW%C7%D5%A5%B3%A5%F3%A5%D4%A5%E5%A1%BC%A5%BF%A3%B5%B8%DE%BE%AD%B4%FD%C2%E7%B2%F12016 私は現地に行けなかったので、芝浦工業大学 五十嵐研の原さんに代理操作して頂きました。感謝感謝。 参加…

PGQ: COMBINING POLICY GRADIENT AND Q-LEARNING

https://arxiv.org/pdf/1611.01626.pdf Deepmindの中の人の論文。方策勾配法とQ学習の組み合わせらしい。

ちょっとだけ強くなった

@MoriokaYuichi 線形近似の場合でも適用できるかわかりませんが、パラメータの出現回数を数えてMBIE-EBによって出現回数のルート分の1相当のボーナスを加えて行動決定するとかいかがでしょうか。応用されてDeepmind社のDQNに使われています。— Katsuki Ohto …

PGLeafとアンサンブル学習を組み合わせた手法を実験開始

DQNを実装して5五将棋で学習させてみたんですが、TD誤差が一向に減らないという問題が有って、これは一旦保留。 んで、表題の手法のコード(前に書いた)を引っ張り出して来て、テスト&デバッグ中。 やる事はシンプルで、評価関数インスタンスを多数生成し…

定跡構築は一時中断&今後の方針を検討中

定跡ですが、ある程度の局面を登録出来たので実戦投入したんですが、かえって弱くなっちゃいました。 詳細はまだ未検証ですが、とりあえず一旦保留して、後日再検討します。 んで、基本に立ち返って強化学習での評価関数パラメータの学習を再開…しようと思っ…

定跡構築に着手

Entropy Regularizationは難易度高過ぎで断念しました。 んで、表題の通り定跡構築中。(5五将棋です。) 細かいバグは大体取れたみたいなんで、一週間位走らせる予定。これで、20万局面は登録出来るはずです。 +---+---+---+---+---+ | |v飛| |v金|v王| +--…

Entropy Regularizationの式の導出

https://arxiv.org/pdf/1602.01783.pdf A3Cの論文にあるEntropy Regularizationの意味が(少しだけ)分かってきたので、実装の準備として微分してみる。 まず、方策に対してエントロピーを考える。 を代入すると (π・その他の記号の意味は http://gasyou.is…

VS spp(5五将棋モード) 誤差程度しか強くなってない

PGLeafで引き続き学習させたバージョン。 結果は639勝88敗で勝率87.9%。95%信頼区間は85.3〜90.2。 前のやつより0.2%勝率上がってますが、まぁ誤差の範囲内ですね。 とりあえず、このパラメータをベースにして探索パラメータの学習と定跡の構築をやってみ…

VS ssp(5五将棋モード) よーしよしよし、いい感じ

評価関数のバグをFIXしてから、PGLeafで12万3千局学習させたパラメータ。 結果は270勝38敗で勝率87.7%、95%信頼区間は83.5〜91.1。 これ自体はそんなに悪い数字じゃないですし、その後も順調にレベルアップしていますので、今後に期待が持てます。 という…

KPP+手番評価にでっかいバグ発見

どれ位でかいかと言うと、これでsspに勝率80%ってのが信じられなくなるレベルのバグです。 んで、今日は午後から名古屋に行ってきたんですが、行きの電車の中でバグに思い至ってしまいました。 ツー訳で、予定だった本屋巡りもそこそこにして帰宅。今から修…

リファクタリング後のVS ssp(5五将棋モード)

評価関数をリファクタリングしたので、弱くなってないのを確認する為に昨日と同じパラメータで連続対局。 結果、458勝114敗で勝率80.1%。95%信頼区間は76.6〜83.3。 少なくとも、弱くはなってないみたいなんで一安心です。 という訳で、次は現在学習中のパ…

VS ssp(5五将棋モード)

修正した評価関数をPGLeafで学習させたもの。対局数は11万1千局。 結果、310勝86敗で勝率78.3%。95%信頼区間は73.9〜82.2。最初は勝率85%前後で推移してたんで、結構期待してたんですけどねぇ。 ブログに書いてなかったけど、前にTDLeaf(λ)+Experience R…

手番評価を追加&バグ修正二件

まず、Bonanza 6.0風の駒割+KKP+KPP+αの評価関数に、手番評価を追加。 やり方はNDFさんとは違って、(多分)独自方式です。まぁ、自力で考えましたが、同じ事は既に誰かがやっているはずです。 んで、評価関数のテスト中に潜在バグを二件発見。KKPのイン…

う〜ん、上手く行かないなぁ

PGLeaf、AC-PGLeaf*1、LA-PGLeafと色々な学習ルーチンを、色々なメタパラメータで走らせていますが、どれも強くなってくれないです。対ssp(5五将棋モード)で勝率70%行けば良い方。 んで、現在の評価項目はBonanza 6.0を参考に駒割+KKP+KPP+αなんですが…

インペリアルフォース2楽しぃいいい良い良い良い良い良い良い良い良い!!!!!

昔々のPC-9801が現役だった頃、インペリアルフォースというゲームが有りました。 ゲームの内容としては、宇宙戦艦を建造して艦隊を編成し、他の星系を探索・征服していくという極めてシンプルなもの。 んで、当時はまだガキだったんで「自分のPC」なんて物を…

A3C+PGLeafをお試し中

http://arxiv.org/abs/1602.01783 前に実装したコードを引っ張り出して来て、少し修正して走らせてみました。 んで、ログを見ているとTDLeaf(λ)+Experience Replayの時より、CriticのTD誤差が大きくなっています。 具体的には、それぞれ0.13と0.20位です(最…

ThinkPad 13ポチった

金はまぁそれなりには余裕があるので、つい。 んで、現状のThinkPadのモバイルノート系列、どれも一長一短なんですよねぇ。 X1 Carbon : メモリ増設不可で、MAX8GBだか16GBまでしか選べない。 X260 : キーボードがウンコ。"["とか"]"とかの幅が狭くて、使い…

バンディット問題の理論とアルゴリズム

バンディット問題の理論とアルゴリズム (機械学習プロフェッショナルシリーズ)作者: 本多淳也,中村篤祥出版社/メーカー: 講談社発売日: 2016/08/25メディア: 単行本(ソフトカバー)この商品を含むブログ (1件) を見る 届いた。明日読む。 目次だけ眺めた感…

Efficient Exploration for Dialog Policy Learning with Deep BBQ Networks & Replay Buffer Spiking

http://arxiv.org/pdf/1608.05081.pdf DQNの次はBBQらしいですよ!

これだけ読めば分かる(かもしれない)強化学習@コンピュータ将棋界

はじめに 「強化学習 将棋」でググッてこのブログに来て貰う人が時々いますが、そう言えばちゃんとした概要を書いていなかったので、自分の復習がてら書いてみます。 んで、まず検索すると出てくる二大キーワード。 マルコフ決定過程(MDP:Markov Decision P…

ここらで問題点を整理しとこう

先手と後手で共通の評価関数を使うと、何故か学習が上手く行かない。 対sspの勝率が、一旦9割を超えてから下がる現象が時々ある。 対sspの勝率が不安定(学習するたびに異なる)。 …問題点だらけだな、こりゃ。

まだまだまだデータ採取中

以前の先後で評価関数のインスタンスを分けた場合のグラフに、先手のみ・後手のみ学習のログを追加したものです。 んで、先手のみ学習の結果が異常に良いのが気になりますね。 一旦勝率上がってから下がるのは、ベースラインの設定をしていないのが原因かも…

まだまだデータ採取中

先手と後手で評価関数のインスタンスを分けて、別個に学習した結果です。 まず、正則化無し・開発用マシンで実行。 次に、正則化有り・学習用マシンで実行。 正則化有りの方は何か結果が変ですが、とりあえずは無視して上の正則化無しの結果だけ検証。 後手…

データ採取、少しだけ完了

GA将対sspの勝率の推移です。「通算」とあるのが先手・後手トータルでの勝率で、後は先手だけ・後手だけの値。 まず、正則化無し、開発用マシンで実行。 次に、正則化係数1E-4、学習用マシンで実行。 上は後手だけ、下は先手だけ勝率が高いです。 んで、この…