2011-08-30 まだまだ方策勾配法 開発日記 三目並べでテストしてるんですが、片方のみ学習で変な現象が。 先手のみ学習だと100局かからずに勝率が100%になって、その後はごくまれに負ける位なんですが、後手のみ学習だと勝率が95%前後までしか行きません。 試しにソフトマックス方策の目標探査率を0.0にすると、後手のみ学習でも同じ様になるんですが、なんなんだろう、この現象…