GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2019-09-01から1ヶ月間の記事一覧

GAN、お勉強中

詳説ディープラーニング: 生成モデル編作者: 巣籠悠輔発売日: 2019/04/19メディア: Kindle版この商品を含むブログを見る とりあえずこの本買って、コードを写経してみました。 んで、1Epochと100Epochで生成される画像の質にどの程度差が出るのか検証。こう…

今更GANなるものに手を出そうとしています

qiita.com こういうのをチョット弄って、Generatorが学習初期局面を生成し、そこからPGLeaf等で自己対局・強化学習する感じで検討中。 Generatorの出力は「本将棋や5五将棋で有り得そうな局面」にすると何の意味もないので*1、Discriminatorに相当する自己対…

2in1の存在意義がよくわからん

例えばこんなの。www.lenovo.com キーボード欲しいならノートPCで良くない? タッチスクリーン搭載モデルもあるし。 キーボード不要ならタブレットで良くない? 軽いし。 なんてーか、凄く中途半端感があって、いまいちどういう層が購入しているのか分からん…

PGLeaf Vier再実装中

まず、学習方策と挙動方策を分けて、学習方策の方は重点サンプリングを用いてOff-Policyで学習する様にした。 挙動方策の報酬は「基本報酬は勝敗に応じて+1/-1/0」「サブ報酬として対局中の予測勝率と実際の勝敗に応じたボーナス」としてみた。 サブ報酬の方…

探査自体を強化学習問題として解く論文(多分)

強化学習による探索行動の学習 強化学習における探査*1を、ε-GreedyやSoftmaxの様な乱数を用いる手法ではなく、過去の経験・知識をもとに実現した論文(だと思う)。 論文ではグリッドワールドや迷路を題材にし、意図した通りの結果が実験的に得られたと書か…

PGLeaf Vierはひとまず白紙撤回

Replay Buffer使うとなんか学習が不安定になるし、私は無理してReplay Buffer使いたい訳ではないので、プラン再考中。 んで、今後どうするかなぁ… とりあえず「自己対局時のランダム性が不足しているらしい」というのは分かってるんで、そこを何とかしないと…