今更GANなるものに手を出そうとしています - GA将？開発日記～王理のその先へ～

　こういうのをチョット弄って、Generatorが学習初期局面を生成し、そこからPGLeaf等で自己対局・強化学習する感じで検討中。

　Generatorの出力は「本将棋や5五将棋で有り得そうな局面」にすると何の意味もないので*1、Discriminatorに相当する自己対局部分で「形勢判断を間違えた局面」を多く生成する様にしてみようと思います。

　具体的には、「生成された局面ではDiscriminatorが優勢（OR 劣勢）と判断したが、対局してみたら負けた（OR 勝った）」場合を「正例」としてはどうかと考えています。

　こうすれば、Discriminator（≒評価関数）の穴を効率良く埋められないかなぁ、と。

　そう言えばGAN将棋さんもGANを使う予定だったらしいけど、どういう風に使ってたんでしょうねぇ。気になります。

*1:そんな事するなら、既存の棋譜から局面引っ張ってこりゃ良いだけの話