今更GANなるものに手を出そうとしています
こういうのをチョット弄って、Generatorが学習初期局面を生成し、そこからPGLeaf等で自己対局・強化学習する感じで検討中。
Generatorの出力は「本将棋や5五将棋で有り得そうな局面」にすると何の意味もないので*1、Discriminatorに相当する自己対局部分で「形勢判断を間違えた局面」を多く生成する様にしてみようと思います。
具体的には、「生成された局面ではDiscriminatorが優勢(OR 劣勢)と判断したが、対局してみたら負けた(OR 勝った)」場合を「正例」としてはどうかと考えています。
こうすれば、Discriminator(≒評価関数)の穴を効率良く埋められないかなぁ、と。
そう言えばGAN将棋さんもGANを使う予定だったらしいけど、どういう風に使ってたんでしょうねぇ。気になります。