頓死が多い

開発日記学習経過

sspとスパーリングすると、大抵終盤で頓死します。どうも、三駒関係＋αの重みが小さ過ぎる様です。という訳で、駒割以外をもうちょっと重視する様に設定変更して再度学習中。

2018-04-05

VS Lesserkai（本将棋モード）

開発日記学習経過

負け無しの53連勝出来ました。という訳で、現在sspとスパーリング中。

2018-03-26

久々の更新です

開発日記

1ヶ月以上放置していましたが、生きてます。一応。んで、コンピュータ将棋の方ですが、勾配計算ルーチンをリファクタリングして、5五将棋モードで対ssp（ハンディキャップマッチ）で勝率69.3％になりました。リファクタリング前とほぼ同等ですので、まぁ妥…

2018-02-03

ロールバック後の対sspスパーリング（5五将棋モード・ハンディキャップマッチ）

開発日記

638勝332敗で勝率65.8％。これは、デグってた訳では無く、単に最初の勝率（69.6％）がラッキーパンチだったって可能性もありますね。ま、とりあえずこの問題は解決済みとして、次行きましょう、次。

2018-02-01

デグってハニー！！！

開発日記

対局用ルーチンを色々弄っていたら、いつの間にか対sspの勝率が5ポイントほど減少。原因がサッパリなんで、とりあえず過去最高の勝率を出した時のソースにロールバックして連続対局中。これで勝率が元に戻ったら、学習ルーチンとログ出力クラスだけロール…

2018-01-31

Dropoutを有効にすべきか…

開発日記

PGLeafの改良版にDropoutを実装してみたんですが、NPSが約半減。これは痛い。おまけに、Dropout有効だと収束までの学習回数が倍増するらしいんで、ちょっとどうしたもんかと考慮中。先日の小規模改良の後も色々やってて、その結果がまだなんで、Dropout有…

2018-01-24

チマチマと改良

開発日記

まず、RMSPropよりMomentumSGDの方が、駒割とかの収束が速いらしい事が分かったので、そっちに変更。それから、今までは勾配計算ルーチンに「λ収益と選択した手の評価値の自乗誤差最小化」の項があったんですが、λ収益も評価値も「勝率の近似*1」と見なせる…

2018-01-24

棋力向上頭打ち、かなぁ…

開発日記

400万局まで粘ってみるつもりでしたが、心が折れそうなんで何か改良してリトライしてみます。パラメータの推移を見る限りでは、現行バージョンの方が素性は良さそうなんで、期待してるんですけどねぇ。

2018-01-22

棋力順調向上中

開発日記

「AlphaGo Zeroの真似をしようとしたらいつの間にやらほぼ別物になっていた学習ルーチン*1」で、2日かけて100万局の自己対局が終わったんで、途中経過をペタリ。 5五将棋モードで、対sspのハンディキャップマッチ（GA将0.17秒、ssp1秒）です。ほぼ線形に勝…

2018-01-21

あれ、何か治ってる

開発日記

KL情報量が増大していく件、いつの間にか再現しなくなってた。おかしいなぁ、ログ出力を少し追加して、ちょっとした実験しただけなのに… まぁでも、とりあえずちゃんと動く様になったらしいんで、学習を継続しますか。現時点で、24時間あたり80万局ペース…

2018-01-20

う〜ん、同じ棋譜から学習を繰り返すと正常っポイ

開発日記

試しに1棋譜とか12棋譜とかを自己対局で生成して、その棋譜に含まれる局面だけを対象に探索→パラメータ修正→探索…とループさせてみたら、綺麗にKL情報量が減少していきました。という事は、通常の自己対局で学習させた場合にKL情報量が増大する現象は、「出…

2018-01-20

困った、交差エントロピーがバグってるっぽい

開発日記

交差エントロピーがどんどん増大する現象がSGD・RMSProp共に発生したので、損失項を交差エントロピー＋L2正則化にして学習させてみました。自乗誤差が左の軸、交差エントロピーは右の軸です。困った事に、この条件でも増大傾向です。三目並べではこの現象…

2018-01-18

リファクタリング完！了！！

開発日記

結局交差エントロピーも実装しちゃいました。アサーションに引っ掛からない程度にはなったんで、取り敢えず学習用マシンで学習開始。詳細なテストは明日やります、明日。それから、何時からかは不明ですが、静止探索のPVノードでも交換値ベースの枝刈りが…

2018-01-18

勾配計算部分をリファクタリング中

開発日記

自乗誤差やら交差エントロピーやらの勾配計算で、モード切替の変数に応じて処理をちょっとずつ分岐させていたんですが、流石にメンテナンス性が悪くなってきたんでリファクタリングなう。結局、損失関数は下記の構成に決め打ちする事にしました。 PGLeaf → …

2018-01-13

交差エントロピー最小化、ある程度上手く動く様になった…かも

開発日記

http://d.hatena.ne.jp/Gasyou/20180111/1515663768 で書いた現象ですが、まず交差エントロピー最小化のみにしたら発生しませんでした。んで、細々と修正＆設定変更してから、損失項全部有り*1で再度学習。したら、今度は交差エントロピーがちょっとずつで…

2018-01-11

うぅむ、交差エントロピー最小化が上手く動かない

開発日記

†白美神†さんのPR文書を読みつつ、elmoさんの様に交差エントロピーを正則化項として使用するのにチャレンジしています。 …が、何か上手く動かない。理屈の上では、KL情報量が0に近付く筈*1で、実際に三目並べではそういう挙動をしていますが、5五将棋では一…

2017-12-29

VS ssp（5五将棋モード・ハンディキャップマッチ）勝率69.6％

開発日記学習経過

http://d.hatena.ne.jp/Gasyou/20171222/1513929159 と同様の学習設定で、王将の移動可能範囲評価を有効にしたもの。対局数は420万局。結果、683勝299敗で勝率69.6％。僅かですが、着実に成長しています。んで、自乗誤差の勾配計算ルーチンにバグが有った…