AlphaGo Zeroショック

開発日記

何と言うか、私が将棋でやりたかった事のほぼ全てをやられた感がありますが、「成功したんなら真似しよう」という事で論文を読んで、真似出来そうな部分は真似てみました。んで、現状。まず、テスト用の三目並べモードでは学習成功。そんでもって、当面の…

2017-11-05

実現確率探索に論理バグ発見

開発日記 TODO

バグと言うか、仕様の不備かな。Scoutしとけば良い所で、通常のαβウィンドウで探索してた。ただ、今は学習ルーチンの修正中なんで、グッと我慢して後で修正する事にします。

2017-09-01

合議は「無駄の多い」「ダメな」アルゴリズムなのか？

開発日記

前書き以前、とある方から「何で合議という無駄の多いアルゴリズムを使っているんですか？並列αβ探索で良いじゃないですか。」という趣旨のメールを頂きました。そのメールには単に「並列αβ探索より合議の方が強くなったので採用しています。」とだけ返信…

2017-08-26

プチ将棋の作者様へのお願い

開発日記

ウェブサイトにメールアドレスが載っていなかったのでここに書きます。 5五将棋での連続対局用にプチ将棋＆sspを使わせてもらっていますが、「千日手が先手の負け扱いにならない」「打ち歩詰めが反則扱いにならない」というバグが有ります。もしここをご覧…

2017-08-26

PGLeaf Zwei開発開始

開発日記

PGLeafの改良版を色々作ってきたのですが、○○-PGLeafとかPGLeaf with ××とかって名前が冗長になってきました。という訳で、今まで上手く行った各種改良をまとめて実装したものを「PGLeaf Zwei」と呼ぶ事にしました。ちなみにPGLeafのベースはREINFORCEなの…

2017-08-26

あれ？

開発日記

http://d.hatena.ne.jp/Gasyou/20170820/1503212604 で書いた「一部のパラメータがマイナスになる現象」ですが、L2正則化無効にしても起きました。という事は、これが正常なのか、L2正則化以外の部分でバグってるかのどっちかですね。

2017-08-22

びみょ〜 (´・ω・`)

開発日記

http://pc.watch.impress.co.jp/docs/news/1076621.html 「NICT、レーザーカオスを用いて強化学習を超高速化」というタイトルに惹かれて見てみたんですが、要するに乱数生成器の質と速度を高速化した「だけ」って話っぽいですね。

2017-08-21

バグ、いまだ検出出来ず

開発日記

諸々のチェック用ルーチン有りで22時間走らせて、2万7千局経過。チェックにはどれにも引っかかっていません。 KKP/KPPの一部パラメータがほぼ0やマイナスを行ったり来たりしてるんで、昨日書いた現象が起きている可能性は高いんですが、何が原因なんでしょう…

2017-08-20

【助けて】バグの検出で手詰まり感【偉い人】

開発日記

2つ上で書いたバグ、アサーションを全部有効にして、PVと評価値の突き合わせとか、メモ化した評価値と逐次計算した評価値の突き合わせとか、全部有効にしてもエラー扱いにならないです。ついでに言えば、L2正則化は実質2ステップしかコードが増えて無くて、…

2017-08-20

な・・・に・・・

開発日記

直上で書いた、L2正則化係数0にしたバージョンを開発用マシンに投入。現在７万7千局経過しました。通常なら、ほぼパラメータのプラマイの傾向が明確になって来る時期です。 …で、ですね、出ちゃいました、王将の移動可能範囲のパラメータの一部がマイナスに…

2017-08-20

L2正則化の途中経過＠5五将棋

開発日記

※各グラフはスケールが異なるのでご注意下さい。 L2正則化係数を1E-4からはじめて、現在は1E-7まで下げましたが、依然変な様子。プラスになって欲しいパラメータの一部がマイナスになったりしています。 …一旦、L2正則化係数を0にして*1様子見た方が良いのか…

2017-08-20

GA将が振り飛車苦手なのは良く分かった (´・ω・`)

開発日記

前々からずっと気になっていた、本将棋で飛車を振った直後に角道開けて馬を作られる現象、ようやく原因が判明しました。まず、探索ルーチンの方は正常でした。角道開けてから２七角成まで読めてます。枝刈りのし過ぎとかではありませんでした。んで、肝心…

2017-08-15

【主に】現在の課題と、今後の展望【強化学習方面】

開発日記

えー、まず前提として、現在のGA将の学習ルーチンですが、EB-PGLeafと呼んでいるPGLeafの拡張版がベースです。んで、これには桜丸さん提唱の「レベルアップ判定ルーチン」が有ります。エース（過去最強）の評価関数パラメータを保存しておいて、Greedy方策…

2017-08-14

Null Move Pruningと必至絡みの微妙なバグ、発生

開発日記

「必至をかける→パスする→詰まないじゃん！」という誤解をしてしまう現象が起きています。んで、実際はパス以外を指すと全て詰む手順だったりするんで、終盤で大反省してしまう事がチラホラと。ついでに、連続対局がエラーになって止まる事もあり、困りまし…

2017-07-23

対ssp（5五将棋モード）のベースライン

開発日記

試しに、駒割のみ適当に初期化して、後の三駒関係＋αはごく小さな乱数で初期化した評価関数を使って、sspと対局させてみました。んで、驚愕の事実！！！ 2勝21敗で勝率8.7%でした！！！全く勝てないかと予想してたんですが、駒割のみでも意外と行けるもん…

2017-07-23

EB-PGLeafの微調整中

開発日記

パラメータの更新回数を、本譜の手のPV Leafでのみ更新する様に変更。ミニバッチサイズ*1を100→1000に変更。 Bonanza 6.0のFV_SCALEに相当する値*2を微調整。王将の移動可能範囲評価で特徴量計算式を修正。んで、現在5時間ほど学習させて、駒割はほぼ収束…

2017-07-14

前の論文の手法は断念（半分だけ）

開発日記

http://d.hatena.ne.jp/Gasyou/20170701/1498906118 上記論文の手法ですが、5五将棋で使用するのは難しそうです。と言うのは、論文中でρとρ'という値を計算する必要があるのですが、現状のGA将の評価関数ではどちらも0.0になってしまいます*1。多倍長浮動小…