探索深さを2にするとちゃんと学習しない理由
仮説その1 深さが偶数だとNG
理由は置いといて、深さが奇数だと上手く行く、偶数だと上手く行かないってパターン。
方策内部で更に一手全幅で読んでるんで、深さが偶数だと自分の手番で探索を打ち切ります。そうすると、自分の方だけ一手余分に読めるんで、その部分が悪さしてるんじゃないかと。
仮にそうなら深さを3にすると良いはずですが、それは時間がかかりすぎるんで当面の間検証はパス。
仮説その2 学習率が高すぎる
今は深さ1と2で同じ学習率0.001ですが、それがダメなんじゃないかってパターン。
基本的な考え方として、「PV末端の評価値を修正してもPVに変化は無い」って前提でパラメータ修正していますが、学習率0.001で深さ2だと、PV末端の評価値を修正するとPV自体も変化しちゃって、望む方向にパラメータが修正出来ていないんじゃないかと。
となると、パラメータ修正後に再度探索してみて、ちゃんと誤差が減る方向に向かってるのを確認しないとダメですね。
うーん、いずれにせよ、厄介な問題かも。でも、これをクリアしないと強くなれないし、何とか解決してみます。