AlphaGoの学習アルゴリズムの解説記事 - GA将？開発日記～王理のその先へ～

　「AlphaGoは自己対局からの強化学習で強くなった」と理解していたのですが、微妙に違ったみたいです。

　私が考えていたのは（＆今GA将でやっているのは）「最新バージョンのパラメータ同士での対局」なんですが、「過去のバージョンのパラメータからランダムに選択した相手」と対局させたみたいですね。

　言われてみれば、それならオーバーフィッティングが解消されるかもしれませんし、そういう手もアリですね。

　という訳で、早速実装してみますが、コンピュータ将棋に応用するとなると困った問題が一つ。

　…メモリが足りません。

　評価関数1個（1バージョン）で1.5GB程なんで、過去バージョンはファイルにセーブして取っておくしか無さげですね。