AlphaGoの学習アルゴリズムの解説記事
http://itpro.nikkeibp.co.jp/atcl/column/14/090100053/021000126/?ST=bigdata&P=2 (ITProへのユーザ登録が必要です)
「AlphaGoは自己対局からの強化学習で強くなった」と理解していたのですが、微妙に違ったみたいです。
私が考えていたのは(&今GA将でやっているのは)「最新バージョンのパラメータ同士での対局」なんですが、「過去のバージョンのパラメータからランダムに選択した相手」と対局させたみたいですね。
言われてみれば、それならオーバーフィッティングが解消されるかもしれませんし、そういう手もアリですね。
という訳で、早速実装してみますが、コンピュータ将棋に応用するとなると困った問題が一つ。
…メモリが足りません。
評価関数1個(1バージョン)で1.5GB程なんで、過去バージョンはファイルにセーブして取っておくしか無さげですね。