GA将?開発日記~原点回帰~

ネタ勢最強を目指して絶賛開発中。

AlphaGoの学習アルゴリズムの解説記事

 http://itpro.nikkeibp.co.jp/atcl/column/14/090100053/021000126/?ST=bigdata&P=2 (ITProへのユーザ登録が必要です)

 「AlphaGoは自己対局からの強化学習で強くなった」と理解していたのですが、微妙に違ったみたいです。

 私が考えていたのは(&今GA将でやっているのは)「最新バージョンのパラメータ同士での対局」なんですが、「過去のバージョンのパラメータからランダムに選択した相手」と対局させたみたいですね。

 言われてみれば、それならオーバーフィッティングが解消されるかもしれませんし、そういう手もアリですね。

 という訳で、早速実装してみますが、コンピュータ将棋に応用するとなると困った問題が一つ。

 …メモリが足りません。

 評価関数1個(1バージョン)で1.5GB程なんで、過去バージョンはファイルにセーブして取っておくしか無さげですね。