GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2016-09-01から1ヶ月間の記事一覧

Entropy Regularizationの式の導出

https://arxiv.org/pdf/1602.01783.pdf A3Cの論文にあるEntropy Regularizationの意味が(少しだけ)分かってきたので、実装の準備として微分してみる。 まず、方策に対してエントロピーを考える。 を代入すると (π・その他の記号の意味は http://gasyou.is…

VS spp(5五将棋モード) 誤差程度しか強くなってない

PGLeafで引き続き学習させたバージョン。 結果は639勝88敗で勝率87.9%。95%信頼区間は85.3〜90.2。 前のやつより0.2%勝率上がってますが、まぁ誤差の範囲内ですね。 とりあえず、このパラメータをベースにして探索パラメータの学習と定跡の構築をやってみ…

VS ssp(5五将棋モード) よーしよしよし、いい感じ

評価関数のバグをFIXしてから、PGLeafで12万3千局学習させたパラメータ。 結果は270勝38敗で勝率87.7%、95%信頼区間は83.5〜91.1。 これ自体はそんなに悪い数字じゃないですし、その後も順調にレベルアップしていますので、今後に期待が持てます。 という…

KPP+手番評価にでっかいバグ発見

どれ位でかいかと言うと、これでsspに勝率80%ってのが信じられなくなるレベルのバグです。 んで、今日は午後から名古屋に行ってきたんですが、行きの電車の中でバグに思い至ってしまいました。 ツー訳で、予定だった本屋巡りもそこそこにして帰宅。今から修…

リファクタリング後のVS ssp(5五将棋モード)

評価関数をリファクタリングしたので、弱くなってないのを確認する為に昨日と同じパラメータで連続対局。 結果、458勝114敗で勝率80.1%。95%信頼区間は76.6〜83.3。 少なくとも、弱くはなってないみたいなんで一安心です。 という訳で、次は現在学習中のパ…

VS ssp(5五将棋モード)

修正した評価関数をPGLeafで学習させたもの。対局数は11万1千局。 結果、310勝86敗で勝率78.3%。95%信頼区間は73.9〜82.2。最初は勝率85%前後で推移してたんで、結構期待してたんですけどねぇ。 ブログに書いてなかったけど、前にTDLeaf(λ)+Experience R…

手番評価を追加&バグ修正二件

まず、Bonanza 6.0風の駒割+KKP+KPP+αの評価関数に、手番評価を追加。 やり方はNDFさんとは違って、(多分)独自方式です。まぁ、自力で考えましたが、同じ事は既に誰かがやっているはずです。 んで、評価関数のテスト中に潜在バグを二件発見。KKPのイン…

う〜ん、上手く行かないなぁ

PGLeaf、AC-PGLeaf*1、LA-PGLeafと色々な学習ルーチンを、色々なメタパラメータで走らせていますが、どれも強くなってくれないです。対ssp(5五将棋モード)で勝率70%行けば良い方。 んで、現在の評価項目はBonanza 6.0を参考に駒割+KKP+KPP+αなんですが…

インペリアルフォース2楽しぃいいい良い良い良い良い良い良い良い良い!!!!!

昔々のPC-9801が現役だった頃、インペリアルフォースというゲームが有りました。 ゲームの内容としては、宇宙戦艦を建造して艦隊を編成し、他の星系を探索・征服していくという極めてシンプルなもの。 んで、当時はまだガキだったんで「自分のPC」なんて物を…

A3C+PGLeafをお試し中

http://arxiv.org/abs/1602.01783 前に実装したコードを引っ張り出して来て、少し修正して走らせてみました。 んで、ログを見ているとTDLeaf(λ)+Experience Replayの時より、CriticのTD誤差が大きくなっています。 具体的には、それぞれ0.13と0.20位です(最…