こういうのをチョット弄って、Generatorが学習初期局面を生成し、そこからPGLeaf等で自己対局・強化学習する感じで検討中。

　Generatorの出力は「本将棋や5五将棋で有り得そうな局面」にすると何の意味もないので*1、Discriminatorに相当する自己対局部分で「形勢判断を間違えた局面」を多く生成する様にしてみようと思います。

　具体的には、「生成された局面ではDiscriminatorが優勢（OR 劣勢）と判断したが、対局してみたら負けた（OR 勝った）」場合を「正例」としてはどうかと考えています。

　こうすれば、Discriminator（≒評価関数）の穴を効率良く埋められないかなぁ、と。

　そう言えばGAN将棋さんもGANを使う予定だったらしいけど、どういう風に使ってたんでしょうねぇ。気になります。

*1:そんな事するなら、既存の棋譜から局面引っ張ってこりゃ良いだけの話

2019-09-24

2in1の存在意義がよくわからん

コンピュータ関連

　例えばこんなの。

www.lenovo.com

　キーボード欲しいならノートPCで良くない？タッチスクリーン搭載モデルもあるし。

　キーボード不要ならタブレットで良くない？軽いし。

　なんてーか、凄く中途半端感があって、いまいちどういう層が購入しているのか分からん。

2019-09-11

PGLeaf Vier再実装中

　まず、学習方策と挙動方策を分けて、学習方策の方は重点サンプリングを用いてOff-Policyで学習する様にした。

　挙動方策の報酬は「基本報酬は勝敗に応じて+1/-1/0」「サブ報酬として対局中の予測勝率と実際の勝敗に応じたボーナス」としてみた。

　サブ報酬の方は、予測勝率と勝敗の差が大きいほど大きな値を与える様にしたので、逆転勝ち・負けの場合はサブ報酬が大きくなるはず。

　んで、例によって三目並べモードで実験してみたら、正しく収束する時は数秒で済むけど、そうでない場合は1分かけてもNG。

　困った…

2019-09-10

探査自体を強化学習問題として解く論文（多分）

強化学習による探索行動の学習

　強化学習における探査*1を、ε-GreedyやSoftmaxの様な乱数を用いる手法ではなく、過去の経験・知識をもとに実現した論文（だと思う）。

　論文ではグリッドワールドや迷路を題材にし、意図した通りの結果が実験的に得られたと書かれている。

　論文の手法をそのままGA将？に適用するのは難しそうだが、考え方自体は非常に面白いので、なんとかして真似てみようと思う。

*1:論文では「探索」と記載されているが、αβ探索との混同を避ける為、本記事では「探査」で統一する

2019-09-09

PGLeaf Vierはひとまず白紙撤回

　Replay Buffer使うとなんか学習が不安定になるし、私は無理してReplay Buffer使いたい訳ではないので、プラン再考中。

　んで、今後どうするかなぁ…

　とりあえず「自己対局時のランダム性が不足しているらしい」というのは分かってるんで、そこを何とかしないといけないんですが、単純に温度上げるとそれはそれで悪影響出てくるし…

　やっぱ、REINFORCEベースじゃなくて、報酬の予測値を学習する関数近似器を導入するのが手っ取り早い？

2019-06-17

PGLeaf Vier開発開始

medium.com

　Experience Replayを使いたかったので、上記のサイトを参考に実装。

　現時点での構成は「REINFORCEベースのPGLeaf＋Experience Replay＋重点サンプリング」ですが、最終的にはもっと色々拡張する予定。

強化学習 (機械学習プロフェッショナルシリーズ)

作者: 森村哲郎
出版社/メーカー: 講談社
発売日: 2019/05/23
メディア: 単行本（ソフトカバー）
この商品を含むブログを見る

　んで、今日買ってきたMLPシリーズの「強化学習」に、関数近似を用いた方策勾配法の初見の手法が載っていたので、次はそれを実装する予定。

　現在は三目並べモードでデータ収集中なんで、それが終わってから（多分2時間後）改良しますかね。

　…あ、その前に不要なコードとかの整頓しとかないと、スパゲッティコードになっちゃう。

2019-06-02

Learning Efficient and Effective Exploration Policies with Counterfactual Meta Policy

後で読む

　https://arxiv.org/pdf/1905.11583.pdf

　とりあえず読んで、応用出来そうならやってみます。

GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

今更GANなるものに手を出そうとしています