まだまだ迷走中…

開発日記学習経過

Factorization Machineを使用した疑似四駒関係は結局上手く行きませんでした。という訳で、PPT＋αで何とか強くしようと色々いじってます。とりあえず、今までは割引率γを1に設定していましたが、これだとチョットぬるい手を指す事があるので、γ=0.99で学習…

2019-03-26

いい感じいい感じ

開発日記学習経過

昨夜から18時間ほど学習させたパラメータでsspと連続対局中ですが、現時点で53勝16敗、勝率76.8％。どうも、前回学習時の最終的な勝率と並びそうな感じです。コード自体は前と同じで、RMSPropのαとノイズの標準偏差初期値をちょっといじっただけなんですが…

2019-03-22

ここはじっと我慢の一手

開発日記学習経過

今朝からsspとスパーリングしてたバージョンのパラメータですが、昨夜のやつより誤差程度弱くなっています。ただ、まだ頭打ちと決まった訳では無いので、もうちょっと学習継続させてみます。今の感じだと、4月に入ってから三駒関係有効で学習開始しても何と…

2019-03-21

もうちょっと様子見が最善手かなぁ

開発日記学習経過

現在ssp相手に32勝23敗。頭打ちかと思っていましたが、まだ伸びるかもしれません。という訳で、当面は現在の学習を継続する予定。三駒関係有効での学習ルーチンの修正は完了して現在テスト中なんで、伸びなくなったらすぐに切り替えて学習させるつもりです…

2019-03-21

VS ssp（本将棋モード）

開発日記学習経過

24時間ほど走らせたパラメータで149勝161敗、勝率48.1％。去年の選手権バージョンよりは強くなってます。ただ、どうもそろそろ頭打ち感があるので、早々に三駒関係有効にして学習出来る様にしようと思います。

2019-01-29

対ssp（5五将棋モード・ハンディキャップマッチ）のベースライン更新

開発日記学習経過

連続対局用サーバを実装したんで、前にプチ将棋を使って対ssp（ハンディキャップマッチ）の勝率75.6％を記録したパラメータでテスト対局。結果、勝率82.0％になりました。千日手や打ち歩詰めの判定を考慮しても勝率が上がり過ぎているのですが、多分USIモー…

2019-01-14

ちょっと修正したら、学習の立ち上がりは上々

開発日記学習経過

PGLeaf＋MCからPGLeaf＋Q(λ)にアルゴリズムを変更して、昨夜から5五将棋モードで学習中。現在、55万局経過後のパラメータでsspと対局中ですが、勝率65％前後。学習序盤としては上々の結果です。このまま順調に強くなってくれれば良いんですが、どこまで伸…

2018-12-31

Optimizerの設定、間違ってた

開発日記学習経過

gasyou.hatenablog.jp 昨日はRMSPropと書きましたが、設定を見直したらRMSProp＋慣性項になっていました。 …まぁ、強くなってるから良いか。今の学習が頭打ちになったら、RMSPropのみに設定変更して、も一度学習しよう。ちなみに現在の棋力ですが、164万局…

2018-12-30

PGLeaf Dreiの現在の構成

開発日記学習経過

色々やって原型とどめ無くなってきたので、一旦整理。勾配計算に用いるのはPGLeaf＋モンテカルロ法 PGLeaf項はGPWの論文そのままモンテカルロ項は評価値をシグモイド関数に通して予測勝率に変換し、交差エントロピーを最小化する Softmax方策＋αβ探索＋線…

2018-12-29

Noisy Networkを応用してみたら意外と良い感じになってきた

開発日記学習経過

その論文は読んでないですが概要だけ見ると https://t.co/xgorf3i1Gd https://t.co/JrAKUakySh でやってることと同じように思いました— mooopan (@mooopan) 2018年12月17日 Twitterで@mooopan氏に教えてもらった論文を参考にして、線形の評価関数にノイズを…

2018-04-21

ヤバい所の話じゃないかも

開発日記学習経過

ssp相手のスパーリングで、＋3000点からの逆転負けとかが非常に多いです。目視している限りでも、負けパターンの半分はそんな感じ。三駒関係＋αの重み*1を色々変えて実験中ですが、現時点でこれでは選手権は絶望的ですね。 …最悪、Depth1で学習したパラメー…

2018-04-16

頓死が多い

開発日記学習経過

sspとスパーリングすると、大抵終盤で頓死します。どうも、三駒関係＋αの重みが小さ過ぎる様です。という訳で、駒割以外をもうちょっと重視する様に設定変更して再度学習中。

2018-04-05

VS Lesserkai（本将棋モード）

開発日記学習経過

負け無しの53連勝出来ました。という訳で、現在sspとスパーリング中。

2017-12-29

VS ssp（5五将棋モード・ハンディキャップマッチ）勝率69.6％

開発日記学習経過

http://d.hatena.ne.jp/Gasyou/20171222/1513929159 と同様の学習設定で、王将の移動可能範囲評価を有効にしたもの。対局数は420万局。結果、683勝299敗で勝率69.6％。僅かですが、着実に成長しています。んで、自乗誤差の勾配計算ルーチンにバグが有った…