まず、メタエージェント*1が学習する間隔が今までは100局ごとだったのを、一局終わるごとに0.02の確率で学習する様に変更。
これは、先手のメタエージェントと後手のメタエージェントが同じタイミングで学習すると不具合があるかもしれないと考えたからですが、結果は微妙。正しく石差を学習する確率は75%で変わらず。
次に、残りの空きマスの数を見て、完全読みする数なら必ず完全読みして、そうでなければ確率εでランダムに行動選択・確率1-εで最善手を打つ、という風に修正。
結果、4プロセス全部が正しく学習しましたが、単に運が良かっただけかもしれないので再度実験中。