「VAPSLeaf」はVAPS with Leafの略称で、PGLeafの時と同じ安直な命名です。
まぁでも、アルゴリズムの名称が無いとクラスを作る時に不便だし、当面はこの名前で行きます。
んで、VAPSは従来手法より(エピソード数ベースでの)収束が早いのが売りらしいんで、PGLeafと比較してみる事に。
まずはPGLeafで、後手を完全読みプレイヤーに固定・先手のみ学習って条件で三目並べを500局×2000セット学習させて、どの程度のエピソード数で収束するかを調べるコードを書きました。
今日は、そのコードを走らせつつVAPSLeafの実装に着手します。