う～ん…

UEC杯の負けた棋譜の解析が終了して結果を眺めてみましたが、微妙な結果に。まず、解析方法。棋譜の全局面に対して、詰将棋ルーチン1分＋通常探索ルーチン5分で探索。本譜の手と探索した結果が食い違っていれば、悪手と判定。んで、負けた棋譜はどれも明…

2020-03-20

GA将！？開発開始…か？

Fairy-Stockfishの最新版をダウンロードしてきて、これにGA将？の評価関数を組み合わせるのを着手。名称は「GA将！？」としました。Ver.11です。上手く行けば、そのまま学習ルーチンも移植して、本格的に開発再開します。んで、現状。データ構造からして異…

2020-03-20

第12回UEC杯 in GAT 5五将棋大会終了

第12回UEC杯 in GAT５五将棋大会 - 5五将棋 portal 結果はShioRamenさんが全勝優勝、二位がFairy-Stockfishさんで、GA将？は三位でした。棋譜をざっと眺めてみましたが、ShioRamenさんは序盤から他のソフトとは違う感じの棋風ですね。いや～、Fairy-Stockfi…

2020-03-12

結局、一番優勝の目のあるので行く事にした

https://gasyou.hatenablog.jp/entry/2020/03/12/140538 迷った挙げ句、Fairy-Stockfishに勝てない事には優勝無理なんで、1.のパラメータに決めました。同一条件で対局して勝率2割なんで、2戦して1勝する確率は36%。後は他のソフトが白星あげてくれるのに期…

2020-03-12

えっ！？

NyanpassさんがUEC杯の参加キャンセル！？ Fairy-Stockfishと相性良さげだったから、優勝の可能性あるのに勿体ない！

2020-03-12

困った…

現在手持ちのパラメータファイルは3つあって、UEC杯にどのパラメータを使うか悩む… トータルでの*1勝率はそこそこで、Fairy-Stockfish相手は手持ちの中で一番勝率高い。トータルでの勝率は一番高いが、Fairy-Stockfish相手は1.より低い。現在絶賛学習中の…

2020-03-11

最後のお願い、通じたかも

PGLeaf Vierをチョット改良して、一昨日夜から学習中。んで、Fairy-Stockfish／Shokidoki／Lima相手のトータルの勝率が55.8％から60.2％に微増。現在も学習継続中ですが、まだレーティングが伸びている感じなので、もうちょっと強くなるかもしれません。 …

2020-03-10

UEC杯5五将棋大会にエントリー完了

先程プログラムを送付して、これで準備は完了です。今年は天敵のShokidokiさんが不参加っぽいので、誰かがFairy-Stockfishに勝ってくれて、GA将？がFairy-Stockfishにマグレ勝ち1回すれば優勝の目もありますね。（他力本願すぎるｗ）まぁ、今更何が出来る…

2020-02-07

ちょっとだけ進展有った

学習方策と挙動方策を分けて学習するのは失敗しましたが、REINFORCEベースのPGLeafにエントロピー正則化をかけると割と良い感じでした。んで、単一エージェントだと一旦大きなマイナスが付いちゃったパラメータは、その後挽回する機会がなかなか無く、ズル…

2020-02-03

う～ん、困った

開発日記

基本に戻って三目並べモードで色々実験中。んで、分かった事。 PGQとNoisyNet*1風のノイズ加算は何か不安定になる。むしろ、ベースはREINFORCEのままで、これにNoisyNet風の処理を付け加えた方が良いらしい。後、エントロピー正則化は結構効果があるけど、…

2020-01-16

今年の世界コンピュータ将棋選手権は参加見送ります

コンピュータ将棋

当面は5五将棋の方に注力したいので、選手権は参加見送り。秋のGPW杯コンピュータ5五将棋大会に向けて頑張ります！それから、学習ルーチンの分散コンピューティング化ですが、完全に暗礁に乗り上げちゃいました。困りました…

2020-01-12

障壁が固い…（分散コンピューティング化、続報）

クライアント側は大体実装完了して、さ～サーバとの通信・データ転送周りを作るぞーーー！！と思ってたんですが、技術的・セキュリティ的な大問題が発生・・・まず検討したのが自宅サーバを公開して、クライアント側と直にやり取りする方法。ただ、公開す…

2020-01-11

スターライトブレイカーカウントダウン中

まず、クライアントGUI（Javaで作成）から学習エンジン（C++）を起動して、基本的な情報のやり取り（Exeのバージョン情報をJava側に通知して、Javaからプロセス終了指示を出す）所までは出来ました。 …エンジン側のstderrを読み飛ばす処理忘れてて、「何故か…

2020-01-11

まだちゃんと書いてなかったので、今年の大会参加予定

コンピュータ関連

3月のUEC杯と5月のWCSC30は参加見送って、秋にあるはずのGPW杯コンピュータ5五将棋大会を目標に開発中です。昨年のUEC杯後にも書きましたが、棋力向上は評価関数の精度向上と探索ルーチンの改良の二本柱で行く予定。評価関数の方は、現在進行中の分散コン…

2020-01-07

学習ルーチンの分散コンピューティング化に必要な事

TODO

サーバ・クライアントのプログラムの修正・実装サーバ（Java：通信周りを実装）サーバ（C++：パラメータ更新周りを修正）クライアント（Java：GUIと通信周りを実装）クライアント（C++：自己対局＆勾配計算周りを修正）ランキングのデータ集計＆HTML化…

2020-01-07

「強くてニューゲーム」の可能性を検証してみた＠コンピュータ将棋界

現在のコンピュータ将棋開発の知識を持って20年前（2000年）または30年前（1990年）の世界に降り立ったとすると、どのくらいの強さのプログラムが作れるのでしょうか。当時最強だったものと比べての差はどうでしょうか＞専門家の皆様（リプでなくても、どこ…

2020-01-05

学習ルーチンの分散コンピューティング化を検討中

開発日記

GA将？の学習ルーチンは、ミニバッチサイズ（1回のパラメータ更新に使用する、自己対局の棋譜の数）を大きくすると、学習が安定する傾向があります。ただ、私のPC（Core i7 5960X）では、マシンパワーの関係上ミニバッチサイズは500～1000程度が限界です。 …

2020-01-05

ログの可視化ツールを大幅アップデート

開発日記

qiita.com 上記サイトを参考に、ログファイルの更新を監視してグラフ作成＆Webサイトにアップロードする様にしてみました。（更新ごとだと10秒に1回とかになっちゃうんで、前回処理から一定時間以上は待つ作りになっています。） qiita.com それから、ログフ…

2020-01-05

方策πのエントロピーにもとづく内発的報酬

開発日記アイデアメモ

が、もうちょっとで定式化出来そうな気がする。動機自己対局を通じた、コンピュータ将棋／コンピュータ5五将棋の評価関数の強化学習において、より良い報酬を設計したい。大雑把な考え方方策πのエントロピーが、行動選択の前後でどう変化したかをベース…

2020-01-02

あけましておめでとうございます。

雑記

新年ももう2日になってしまいましたが、今年もよろしくおねがいします。昨年を振り返ると、3月のUEC杯5五将棋大会で準優勝したのがピークで、以降はGA将の開発はほぼ進展無しでした。昨年末に一つちょっとしたアイデアを思い付いて、現在は三目並べモード…

2019-09-29

GAN、お勉強中

詳説ディープラーニング: 生成モデル編作者: 巣籠悠輔発売日: 2019/04/19メディア: Kindle版この商品を含むブログを見るとりあえずこの本買って、コードを写経してみました。んで、1Epochと100Epochで生成される画像の質にどの程度差が出るのか検証。こう…

2019-09-29

今更GANなるものに手を出そうとしています

qiita.com こういうのをチョット弄って、Generatorが学習初期局面を生成し、そこからPGLeaf等で自己対局・強化学習する感じで検討中。 Generatorの出力は「本将棋や5五将棋で有り得そうな局面」にすると何の意味もないので*1、Discriminatorに相当する自己対…

2019-09-24

2in1の存在意義がよくわからん

コンピュータ関連

例えばこんなの。www.lenovo.com キーボード欲しいならノートPCで良くない？タッチスクリーン搭載モデルもあるし。キーボード不要ならタブレットで良くない？軽いし。なんてーか、凄く中途半端感があって、いまいちどういう層が購入しているのか分からん…

2019-09-11

PGLeaf Vier再実装中

まず、学習方策と挙動方策を分けて、学習方策の方は重点サンプリングを用いてOff-Policyで学習する様にした。挙動方策の報酬は「基本報酬は勝敗に応じて+1/-1/0」「サブ報酬として対局中の予測勝率と実際の勝敗に応じたボーナス」としてみた。サブ報酬の方…

2019-09-10

探査自体を強化学習問題として解く論文（多分）

強化学習による探索行動の学習強化学習における探査*1を、ε-GreedyやSoftmaxの様な乱数を用いる手法ではなく、過去の経験・知識をもとに実現した論文（だと思う）。論文ではグリッドワールドや迷路を題材にし、意図した通りの結果が実験的に得られたと書か…

2019-09-09

PGLeaf Vierはひとまず白紙撤回

Replay Buffer使うとなんか学習が不安定になるし、私は無理してReplay Buffer使いたい訳ではないので、プラン再考中。んで、今後どうするかなぁ… とりあえず「自己対局時のランダム性が不足しているらしい」というのは分かってるんで、そこを何とかしないと…

2019-06-17

PGLeaf Vier開発開始

medium.com Experience Replayを使いたかったので、上記のサイトを参考に実装。現時点での構成は「REINFORCEベースのPGLeaf＋Experience Replay＋重点サンプリング」ですが、最終的にはもっと色々拡張する予定。強化学習 (機械学習プロフェッショナルシリー…