VS ssp（5五将棋モード・ハンディキャップマッチ）勝率69.6％

開発日記学習経過

http://d.hatena.ne.jp/Gasyou/20171222/1513929159 と同様の学習設定で、王将の移動可能範囲評価を有効にしたもの。対局数は420万局。結果、683勝299敗で勝率69.6％。僅かですが、着実に成長しています。んで、自乗誤差の勾配計算ルーチンにバグが有った…

2017-12-25

交差エントロピー、やっぱおかしい（はず）

開発日記

三目並べで、温度固定・探索深さをランダムに決定って条件で学習させた結果。初手の価値の推移。初手の勾配。横軸は角で、二つの系列が辺と中央。一枚目は「まぁこんなもんかな」って印象だけど、二枚目ではっきり相関関係が見て取れるんで、「何かおかし…

2017-12-22

バグ、だよなァ

開発日記

王将の移動可能範囲の勾配を自乗誤差・交差エントロピー・PGLeafの各項ごとに100区間移動平均でプロットしてみましたが、交差エントロピーのグラフがどうにもおかしい。自乗誤差のグラフはまぁ正常に見えるんで、評価関数のバグって線は薄いはず。となると…

2017-12-22

VS ssp（5五将棋モード・ハンディキャップマッチ）勝率68.7％

開発日記学習経過

まず、王将の移動可能範囲のパラメータの推移が何かおかしかったんで、一旦この評価項目は無効にしてみました。学習ルーチンは、損失関数は前に書いた設定のままで、勾配ノイズ*1を実装したもの。んで、結果。667勝304敗で勝率68.7％。勾配ノイズ無しだと5…

2017-12-14

VS ssp（5五将棋モード）勝率65.6％

開発日記学習経過

損失関数を「λ収益*1との自乗誤差＋交差エントロピー＋PGLeaf＋L2正則化」に修正し、132万局自己対局したパラメータ。あ、以前書き忘れていましたが、一時期からL2正則化無効にして元に戻すの忘れてたんで、今回の結果からL2正則化有効に戻ってます。思考時…

2017-12-12

交差エントロピーでパラメータが振動するのは、仕様らしい

開発日記

http://d.hatena.ne.jp/Gasyou/20171209/1512803023 で書いた現象の続報。まず、交差エントロピーの微分の式を単純に微分したものから、ひまわりの山本一将さんに教えて貰った式に変更。式自体はかなりシンプルですし、これでバグってたら私にはどーしよー…

2017-12-09

交差エントロピーのみの損失関数でパラメータが振動する現象

開発日記

三目並べ・5五将棋で各種オプティマイザを使ってパラメータの推移を見てみました。三目並べモード、SGD。三目並べモード、RMSProp。三目並べモード、AdaDelta。 5五将棋モード、AdaDelta。つまり、ゲームの種類（And 探索ルーチン・評価関数）やオプティ…

2017-12-09

VS ssp（5五将棋モード）勝率62.9％

開発日記学習経過

損失関数を「報酬との自乗誤差＋交差エントロピー＋PGLeaf」にしたもので、自己対局数は135万。結果、606勝357敗で勝率62.9％、過去最高を更新。微妙な向上幅ではありますが。

2017-12-06

VS ssp（5五将棋モード）勝率62.1％

開発日記学習経過

損失関数をλ収益との自乗誤差のみから、自乗誤差＋交差エントロピーにしたもの*1に変更して120万局学習させたパラメータ。結果は609勝371敗で勝率62.1％。思考時間はGA将0.17秒、ssp1秒のハンディキャップマッチです。 …ただ、このバージョンのパラメータ、…

2017-12-02

VS ssp（5五将棋モード）ハンディキャップマッチベースライン

開発日記学習経過

一昨日と同じパラメータで、GA将の思考時間を通常の0.1倍にした結果、490勝469敗で勝率51.1％。95％信頼区間は47.9〜54.3。という訳で、当面はこの設定で勝率上げるのを目標にしていきます。

2017-11-30

VS ssp（5五将棋モード）勝率90％まであと少し！！！

学習経過

昨夜からの連続対局の結果、845勝110敗で勝率88.5％。今の検証用マシンに移行してからは過去最高の勝率です。さて、こうなると勝率高すぎて正確な検証が出来ない可能性が出てくるんで、前に実装したハンディキャップモード*1で連続対局させてみますか。 *1:…

2017-11-30

GPW2017から3本

後で読む

強化学習を用いた評価関数の作成手法の信頼性の分析将棋における勾配ブースティング木を用いた評価関数 Hybrid Reward Architecture を用いたリアルタイムな意思決定の改善どれも非常に面白そうなんですが、現在AlphaGo Zeroの学習ルーチンを真似するので…

2017-11-29

とある関数の最大化問題

開発日記

交差エントロピーのみで学習が収束しない件、今更ながら自乗誤差と交差エントロピーのログ出力を追加してみました。んで、三目並べで学習させてログを見てみると…全然最大化出来ていない (´・ω・`) バグだな。バグだろうなぁ。でも、試しに神様を教師にし…

2017-11-29

VS ssp（5五将棋モード）最高勝率を更新！！！

開発日記学習経過

先日書いたパラメータで、828勝152敗、勝率84.5％。PGLeaf改を上回ってくれました。んで、上記パラメータは自己対局91万局なんですが、192万局まで進んだパラメータがあるんで、現在そっちで連続対局中。まだ対局数が少ないんで何とも言えませんが、指し手…

2017-11-27

TDLeaf(λ)＋L2正則化＋RMSProp最強説

開発日記

AlphaGo Zeroの真似っ子中なんですが、交差エントロピーの項が怪しいのでそこを外して学習中。構成はタイトルの通り。んで、5五将棋モードで駒割の値が収束してしばらく経ったんで、sspと連続対局中。現時点で24勝0敗、95％信頼区間は85.8〜100.0。なんか…

2017-11-26

AlphaGo Zeroの学習法途中経過

開発日記

どうも交差エントロピーの勾配を計算する部分が怪しい。試しに三目並べで交差エントロピーのみで学習させると、上手く収束しない。という訳で、現在大絶賛テスト＆デバッグ中です。

2017-11-24

AlphaGo Zeroショック

開発日記

何と言うか、私が将棋でやりたかった事のほぼ全てをやられた感がありますが、「成功したんなら真似しよう」という事で論文を読んで、真似出来そうな部分は真似てみました。んで、現状。まず、テスト用の三目並べモードでは学習成功。そんでもって、当面の…

2017-11-05

実現確率探索に論理バグ発見

開発日記 TODO

バグと言うか、仕様の不備かな。Scoutしとけば良い所で、通常のαβウィンドウで探索してた。ただ、今は学習ルーチンの修正中なんで、グッと我慢して後で修正する事にします。

2017-10-03

Cold-Start Reinforcement Learning with Softmax Policy Gradients

後で読む

https://arxiv.org/pdf/1709.09346.pdf やってる事（Softmax方策＋方策勾配法）は基本的にPGLeafも同様なので、何かの参考になるかも。

2017-09-01

合議は「無駄の多い」「ダメな」アルゴリズムなのか？

開発日記

前書き以前、とある方から「何で合議という無駄の多いアルゴリズムを使っているんですか？並列αβ探索で良いじゃないですか。」という趣旨のメールを頂きました。そのメールには単に「並列αβ探索より合議の方が強くなったので採用しています。」とだけ返信…

2017-08-26

プチ将棋の作者様へのお願い

開発日記

ウェブサイトにメールアドレスが載っていなかったのでここに書きます。 5五将棋での連続対局用にプチ将棋＆sspを使わせてもらっていますが、「千日手が先手の負け扱いにならない」「打ち歩詰めが反則扱いにならない」というバグが有ります。もしここをご覧…

2017-08-26

PGLeaf Zwei開発開始

開発日記

PGLeafの改良版を色々作ってきたのですが、○○-PGLeafとかPGLeaf with ××とかって名前が冗長になってきました。という訳で、今まで上手く行った各種改良をまとめて実装したものを「PGLeaf Zwei」と呼ぶ事にしました。ちなみにPGLeafのベースはREINFORCEなの…

2017-08-26

あれ？

開発日記

http://d.hatena.ne.jp/Gasyou/20170820/1503212604 で書いた「一部のパラメータがマイナスになる現象」ですが、L2正則化無効にしても起きました。という事は、これが正常なのか、L2正則化以外の部分でバグってるかのどっちかですね。

2017-08-22

びみょ〜 (´・ω・`)

開発日記

http://pc.watch.impress.co.jp/docs/news/1076621.html 「NICT、レーザーカオスを用いて強化学習を超高速化」というタイトルに惹かれて見てみたんですが、要するに乱数生成器の質と速度を高速化した「だけ」って話っぽいですね。

2017-08-22

第8世代Coreシリーズ（モバイル向け）は40％の性能向上

コンピュータ関連

https://japan.zdnet.com/article/35106072/ 従来のUシリーズは2コアまででしたが、第8世代ではi7/i5共に4コア・8スレッドになった様です。んで、肝心の性能向上率が40％とされています。コア数倍増の割にはあんまり伸びてないですね。私のノートPCはCore …