4x4リバーシは終了(予定)
とりあえずある程度の形は出来たので。学習の途中経過はこんな感じです。
解明結果である後手8石差前後で推移しつつそれより良い手が無いか探す、という結果になっています。
さっき10分ほど動かした結果だと、同条件で動かした4プロセス全部がきちんと学習していました。
で、結局やったのはパラメータ類の地道なチューニング&細々した修正だったりします。
本来はメタ強化学習一発で解決したかったんですが、それを何とかしようとしてるうちにメタパラメータ調整の勘所が分かってきました。
まぁ、結果オーライという事で先に進みます。