GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

迷走中…

 三駒関係だと収束まで時間がかかりすぎるので無理だと判断して、ひまわりさん方式の学習も私には無理で、かと言って二駒関係では伸び代が少ないし…

 という訳で、お手軽に出来る二駒関係+全幅2手での学習を開始。とりあえず、これで強くなってくれれば嬉しいなっと。

 …根本的にはどうするかなぁ。Factorization Machineを使った4駒関係(疑似KKPP)ならそこそこ収束早くてそこそこ強くなるかな?

 よし! いっぺん実装してみよう。

いい感じいい感じ

 昨夜から18時間ほど学習させたパラメータでsspと連続対局中ですが、現時点で53勝16敗、勝率76.8%。どうも、前回学習時の最終的な勝率と並びそうな感じです。

 コード自体は前と同じで、RMSPropのαとノイズの標準偏差初期値をちょっといじっただけなんですが、立ち上がりとしては上々ですね。

 あとはどこまで伸びるかですが、まぁ気長に推移を見守る事にします。

やっぱり二駒関係で行く事にした

 以前の二駒関係の評価値を見てみると、位置評価etcの評価値が大きすぎる気がしたので*1、その辺のメタパラメータとかを調整して再度学習用マシンに投入。

 それから、山本一将@ひまわりさん方式の教師あり方策勾配法も試してみたけど、こっちは私には使いこなせなかったので断念。当面は強化学習一本槍で行くことにします。

 選手権まで後1ヶ月チョイ、もう少しあがいてみます。

*1:序盤から+2000点とか行く

ついカッとなってやった。後悔はしていない。

 二駒関係の学習を打ち切って、三駒関係の学習開始。色々コードをいじったんで、デグレしていないのを確認する為に、現在は5五将棋モードで学習中。

 …したら、二駒関係のパラメータ、強くなっていました。

 まぁ、選手権で使うパラメータが確保出来たと思って納得しときます。

 で、上で書いたコード修正です。三駒関係有効でNoisy Networks風のノイズを加えた局面評価をしようとすると、ノイズの初期化に10数秒オーダーで時間がかかります。

 なので、ここは擬似的にノイズをクリアして、パラメータ参照時にノイズが設定されていなかったらその時にノイズを設定する様に修正しました。これで、ノイズ設定の負荷は大分軽減されたはずです。

 問題は擬似的なノイズクリアとオンデマンドでのノイズ設定ですが、ちゃんと動いているか不安が残りますね。まだ時間はあるので、5五将棋モードで検証して、ちゃんと動いている様なら本将棋モードでの学習を開始する予定です。

ここはじっと我慢の一手

 今朝からsspとスパーリングしてたバージョンのパラメータですが、昨夜のやつより誤差程度弱くなっています。

 ただ、まだ頭打ちと決まった訳では無いので、もうちょっと学習継続させてみます。今の感じだと、4月に入ってから三駒関係有効で学習開始しても何とかなりそうな印象なんで。

 ちなみに、現時点での最強パラメータは対sspの勝率が69.4%。まだ弱っちいですが、昨年の選手権版よりはだいぶマシになってます。

もうちょっと様子見が最善手かなぁ

 現在ssp相手に32勝23敗。頭打ちかと思っていましたが、まだ伸びるかもしれません。

 という訳で、当面は現在の学習を継続する予定。

 三駒関係有効での学習ルーチンの修正は完了して現在テスト中なんで、伸びなくなったらすぐに切り替えて学習させるつもりです。

VS ssp(本将棋モード)

 24時間ほど走らせたパラメータで149勝161敗、勝率48.1%。去年の選手権バージョンよりは強くなってます。

 ただ、どうもそろそろ頭打ち感があるので、早々に三駒関係有効にして学習出来る様にしようと思います。