5五将棋用連続対局サーバの改良中

今まではGA将対ssp専用で実装していたのを、Winboardプロトコルのエンジン含む複数エンジン相手に対局可能な様にしようとしています。んで、現在はFairy-Stockfish3つ相手に対局してログ出力出来る様にまではなりました。後はWinboardプロトコルのエンジン…

2019-05-18

多数決合議用の、複数の評価関数パラメータセットの学習

久々の更新ですが、ちょっとだけ進展有りました。まず、以前から何回かトライしていた「複数の評価関数を生成し、それらのリーグ戦の結果から強化学習する」という手法ですが、ようやく成功したみたいです。以前は学習結果の各パラメータの平均値をファイ…

2019-04-13

「Combining policy gradient and Q-learning」を読んで、実装する為に最低限必要な知識をまとめてみた。

開発日記

arxiv.org 前提二人零和有限確定完全情報ゲームで、自己対局の結果からPGQ（論文の提案アルゴリズム）を用いて評価関数パラメータの学習を行う事を目的とします。報酬は「勝ち：+1、引き分け：0、負け：-1」と設定し、終局後に報酬を与えるものとします。 …

2019-04-10

まだまだ迷走中…

開発日記学習経過

Factorization Machineを使用した疑似四駒関係は結局上手く行きませんでした。という訳で、PPT＋αで何とか強くしようと色々いじってます。とりあえず、今までは割引率γを1に設定していましたが、これだとチョットぬるい手を指す事があるので、γ=0.99で学習…

2019-04-01

迷走中…

開発日記

三駒関係だと収束まで時間がかかりすぎるので無理だと判断して、ひまわりさん方式の学習も私には無理で、かと言って二駒関係では伸び代が少ないし… という訳で、お手軽に出来る二駒関係＋全幅2手での学習を開始。とりあえず、これで強くなってくれれば嬉しい…

2019-03-26

いい感じいい感じ

開発日記学習経過

昨夜から18時間ほど学習させたパラメータでsspと連続対局中ですが、現時点で53勝16敗、勝率76.8％。どうも、前回学習時の最終的な勝率と並びそうな感じです。コード自体は前と同じで、RMSPropのαとノイズの標準偏差初期値をちょっといじっただけなんですが…

2019-03-26

やっぱり二駒関係で行く事にした

以前の二駒関係の評価値を見てみると、位置評価etcの評価値が大きすぎる気がしたので*1、その辺のメタパラメータとかを調整して再度学習用マシンに投入。それから、山本一将＠ひまわりさん方式の教師あり方策勾配法も試してみたけど、こっちは私には使いこ…

2019-03-23

ついカッとなってやった。後悔はしていない。

二駒関係の学習を打ち切って、三駒関係の学習開始。色々コードをいじったんで、デグレしていないのを確認する為に、現在は5五将棋モードで学習中。 …したら、二駒関係のパラメータ、強くなっていました。まぁ、選手権で使うパラメータが確保出来たと思って…

2019-03-22

ここはじっと我慢の一手

開発日記学習経過

今朝からsspとスパーリングしてたバージョンのパラメータですが、昨夜のやつより誤差程度弱くなっています。ただ、まだ頭打ちと決まった訳では無いので、もうちょっと学習継続させてみます。今の感じだと、4月に入ってから三駒関係有効で学習開始しても何と…

2019-03-21

もうちょっと様子見が最善手かなぁ

開発日記学習経過

現在ssp相手に32勝23敗。頭打ちかと思っていましたが、まだ伸びるかもしれません。という訳で、当面は現在の学習を継続する予定。三駒関係有効での学習ルーチンの修正は完了して現在テスト中なんで、伸びなくなったらすぐに切り替えて学習させるつもりです…

2019-03-21

VS ssp（本将棋モード）

開発日記学習経過

24時間ほど走らせたパラメータで149勝161敗、勝率48.1％。去年の選手権バージョンよりは強くなってます。ただ、どうもそろそろ頭打ち感があるので、早々に三駒関係有効にして学習出来る様にしようと思います。

2019-03-20

あ、ひょっとしたら本将棋モードで三駒関係の学習可能かも

「専有メモリ量の関係で三駒関係は無理ぽ」って書いた覚えがありますが、データ構造を見直せば行けそうな気がして来ました。まず、現在の実装だと評価関数内に「全特徴の平均（double型変数1個）と標準偏差（double型変数16個）」を保存しています*1。で、…

2019-03-20

Intelさん、PARROTの実装はよ

https://pc.watch.impress.co.jp/docs/2004/1109/kaigai133.htm PC Watchの過去ログをつらつら眺めていたら、PARROT（Power AwaReness thRough selective dynamically Optimized Traces）という懐かしい単語が。もう15年前かぁ。私が理解した範囲だと、プロ…

2019-03-17

本将棋モード、学習開始

とりあえず最適っぽいメタパラメータは見付かったんで、本将棋モードの学習開始。スレッドのアフィニティマスク設定時に極力同じ物理コアに割り当てない様にとか、セコい改良をチョロっとだけして、後は5五将棋モードそのままです。ただ、評価項目に関して…

2019-03-17

Reflection-Play（反省会モード）は効果無しとの結論に至った

以前Reflection-Playを有効にして強くなった事があったんですが、これはReflection-Playの効果では無く、単に運が良かっただけみたいです。という訳で、今日からは本命の本将棋モードでの学習に着手します。評価項目を駒割＋PPT＋王将の移動可能範囲に限定…

2019-03-16

Winboardプロトコルの解析、ちょっと進んだ

Winboardエンジンの標準入出力を覗き見してログファイルに保存するプログラムを作って、それを参考にプロトコル解析してみた。んで、現状ではShokidokiとLimaを起動して、5五将棋モードで対局させられる程度には解析出来た（はず）。ちゃんと強い設定になっ…

2019-03-16

川中島の戦いじゃないんだから…

13:56:26 @ core::rl::GameAggregator::aggregate() > 2200局終了 13:56:26 @ core::rl::GameAggregator::aggregate() > +---+---+---+---+---+---+---+---+---+ 13:56:26 @ core::rl::GameAggregator::aggregate() > | | | | | |v歩| | |^と| 13:56:26 @ co…

2019-03-14

第11回UEC杯５五将棋大会 in GAT2019版のGA将？を公開しました

第11回UEC杯５五将棋大会 in GAT2019版のGA将？を公開しました。下記URLのからダウンロード可能です。動作環境や使い方に関しては、ZIPフィアル内のReadMe.txtをご参照下さい。 ZIPファイルへの直リンク： https://drive.google.com/open?id=1mOWW2AYmJ554K…