2017-01-01から1年間の記事一覧
http://d.hatena.ne.jp/Gasyou/20171222/1513929159 と同様の学習設定で、王将の移動可能範囲評価を有効にしたもの。対局数は420万局。 結果、683勝299敗で勝率69.6%。僅かですが、着実に成長しています。 んで、自乗誤差の勾配計算ルーチンにバグが有った…
三目並べで、温度固定・探索深さをランダムに決定って条件で学習させた結果。 初手の価値の推移。 初手の勾配。横軸は角で、二つの系列が辺と中央。 一枚目は「まぁこんなもんかな」って印象だけど、二枚目ではっきり相関関係が見て取れるんで、「何かおかし…
王将の移動可能範囲の勾配を自乗誤差・交差エントロピー・PGLeafの各項ごとに100区間移動平均でプロットしてみましたが、交差エントロピーのグラフがどうにもおかしい。 自乗誤差のグラフはまぁ正常に見えるんで、評価関数のバグって線は薄いはず。 となると…
まず、王将の移動可能範囲のパラメータの推移が何かおかしかったんで、一旦この評価項目は無効にしてみました。 学習ルーチンは、損失関数は前に書いた設定のままで、勾配ノイズ*1を実装したもの。 んで、結果。667勝304敗で勝率68.7%。勾配ノイズ無しだと5…
損失関数を「λ収益*1との自乗誤差+交差エントロピー+PGLeaf+L2正則化」に修正し、132万局自己対局したパラメータ。あ、以前書き忘れていましたが、一時期からL2正則化無効にして元に戻すの忘れてたんで、今回の結果からL2正則化有効に戻ってます。 思考時…
http://d.hatena.ne.jp/Gasyou/20171209/1512803023 で書いた現象の続報。 まず、交差エントロピーの微分の式を単純に微分したものから、ひまわりの山本一将さんに教えて貰った式に変更。式自体はかなりシンプルですし、これでバグってたら私にはどーしよー…
三目並べ・5五将棋で各種オプティマイザを使ってパラメータの推移を見てみました。 三目並べモード、SGD。 三目並べモード、RMSProp。 三目並べモード、AdaDelta。 5五将棋モード、AdaDelta。 つまり、ゲームの種類(And 探索ルーチン・評価関数)やオプティ…
損失関数を「報酬との自乗誤差+交差エントロピー+PGLeaf」にしたもので、自己対局数は135万。 結果、606勝357敗で勝率62.9%、過去最高を更新。微妙な向上幅ではありますが。
損失関数をλ収益との自乗誤差のみから、自乗誤差+交差エントロピーにしたもの*1に変更して120万局学習させたパラメータ。 結果は609勝371敗で勝率62.1%。思考時間はGA将0.17秒、ssp1秒のハンディキャップマッチです。 …ただ、このバージョンのパラメータ、…
一昨日と同じパラメータで、GA将の思考時間を通常の0.1倍にした結果、490勝469敗で勝率51.1%。95%信頼区間は47.9〜54.3。 という訳で、当面はこの設定で勝率上げるのを目標にしていきます。
昨夜からの連続対局の結果、845勝110敗で勝率88.5%。今の検証用マシンに移行してからは過去最高の勝率です。 さて、こうなると勝率高すぎて正確な検証が出来ない可能性が出てくるんで、前に実装したハンディキャップモード*1で連続対局させてみますか。 *1:…
強化学習を用いた評価関数の作成手法の信頼性の分析 将棋における勾配ブースティング木を用いた評価関数 Hybrid Reward Architecture を用いたリアルタイムな意思決定の改善 どれも非常に面白そうなんですが、現在AlphaGo Zeroの学習ルーチンを真似するので…
交差エントロピーのみで学習が収束しない件、今更ながら自乗誤差と交差エントロピーのログ出力を追加してみました。 んで、三目並べで学習させてログを見てみると…全然最大化出来ていない (´・ω・`) バグだな。バグだろうなぁ。 でも、試しに神様を教師にし…
先日書いたパラメータで、828勝152敗、勝率84.5%。PGLeaf改を上回ってくれました。 んで、上記パラメータは自己対局91万局なんですが、192万局まで進んだパラメータがあるんで、現在そっちで連続対局中。 まだ対局数が少ないんで何とも言えませんが、指し手…
AlphaGo Zeroの真似っ子中なんですが、交差エントロピーの項が怪しいのでそこを外して学習中。構成はタイトルの通り。 んで、5五将棋モードで駒割の値が収束してしばらく経ったんで、sspと連続対局中。 現時点で24勝0敗、95%信頼区間は85.8〜100.0。 なんか…
どうも交差エントロピーの勾配を計算する部分が怪しい。試しに三目並べで交差エントロピーのみで学習させると、上手く収束しない。 という訳で、現在大絶賛テスト&デバッグ中です。
何と言うか、私が将棋でやりたかった事のほぼ全てをやられた感がありますが、「成功したんなら真似しよう」という事で論文を読んで、真似出来そうな部分は真似てみました。 んで、現状。 まず、テスト用の三目並べモードでは学習成功。 そんでもって、当面の…
バグと言うか、仕様の不備かな。Scoutしとけば良い所で、通常のαβウィンドウで探索してた。 ただ、今は学習ルーチンの修正中なんで、グッと我慢して後で修正する事にします。
https://arxiv.org/pdf/1709.09346.pdf やってる事(Softmax方策+方策勾配法)は基本的にPGLeafも同様なので、何かの参考になるかも。
前書き 以前、とある方から「何で合議という無駄の多いアルゴリズムを使っているんですか? 並列αβ探索で良いじゃないですか。」という趣旨のメールを頂きました。 そのメールには単に「並列αβ探索より合議の方が強くなったので採用しています。」とだけ返信…
ウェブサイトにメールアドレスが載っていなかったのでここに書きます。 5五将棋での連続対局用にプチ将棋&sspを使わせてもらっていますが、「千日手が先手の負け扱いにならない」「打ち歩詰めが反則扱いにならない」というバグが有ります。 もしここをご覧…
PGLeafの改良版を色々作ってきたのですが、○○-PGLeafとかPGLeaf with ××とかって名前が冗長になってきました。 という訳で、今まで上手く行った各種改良をまとめて実装したものを「PGLeaf Zwei」と呼ぶ事にしました。 ちなみにPGLeafのベースはREINFORCEなの…
http://d.hatena.ne.jp/Gasyou/20170820/1503212604 で書いた「一部のパラメータがマイナスになる現象」ですが、L2正則化無効にしても起きました。 という事は、これが正常なのか、L2正則化以外の部分でバグってるかのどっちかですね。
http://pc.watch.impress.co.jp/docs/news/1076621.html 「NICT、レーザーカオスを用いて強化学習を超高速化」というタイトルに惹かれて見てみたんですが、要するに乱数生成器の質と速度を高速化した「だけ」って話っぽいですね。
https://japan.zdnet.com/article/35106072/ 従来のUシリーズは2コアまででしたが、第8世代ではi7/i5共に4コア・8スレッドになった様です。 んで、肝心の性能向上率が40%とされています。コア数倍増の割にはあんまり伸びてないですね。 私のノートPCはCore …
諸々のチェック用ルーチン有りで22時間走らせて、2万7千局経過。チェックにはどれにも引っかかっていません。 KKP/KPPの一部パラメータがほぼ0やマイナスを行ったり来たりしてるんで、昨日書いた現象が起きている可能性は高いんですが、何が原因なんでしょう…
2つ上で書いたバグ、アサーションを全部有効にして、PVと評価値の突き合わせとか、メモ化した評価値と逐次計算した評価値の突き合わせとか、全部有効にしてもエラー扱いにならないです。 ついでに言えば、L2正則化は実質2ステップしかコードが増えて無くて、…
バグの再現待ちでヒマなんで、チョット思い出話を。 研究室に配属されてすぐに、SPARCマシン*1が研究室に共同使用用途で配備されたんですよ。 んで、当時の私のPCはPentium2デュアルだったんですが、先輩の作ったベンチマークでは3倍程度の速度差がありまし…
直上で書いた、L2正則化係数0にしたバージョンを開発用マシンに投入。現在7万7千局経過しました。通常なら、ほぼパラメータのプラマイの傾向が明確になって来る時期です。 …で、ですね、出ちゃいました、王将の移動可能範囲のパラメータの一部がマイナスに…
※各グラフはスケールが異なるのでご注意下さい。 L2正則化係数を1E-4からはじめて、現在は1E-7まで下げましたが、依然変な様子。プラスになって欲しいパラメータの一部がマイナスになったりしています。 …一旦、L2正則化係数を0にして*1様子見た方が良いのか…