を、ちょっと改善したかも
方策勾配法のサンプリング数*1を10局から100局に増やしたバージョンですが、それなりに囲う(というか、守ろうとしている)様子があります。
17:57:58 @ core::rl::GameAggregator::aggregate() > 80000局終了 17:57:58 @ core::rl::GameAggregator::aggregate() > +---+---+---+---+---+---+---+---+---+ 17:57:58 @ core::rl::GameAggregator::aggregate() > | |v桂| | | | |^龍| | | 17:57:58 @ core::rl::GameAggregator::aggregate() > +---+---+---+---+---+---+---+---+---+ 17:57:58 @ core::rl::GameAggregator::aggregate() > | | |v銀|v金|v王|^金| | | | 17:57:58 @ core::rl::GameAggregator::aggregate() > +---+---+---+---+---+---+---+---+---+ 17:57:58 @ core::rl::GameAggregator::aggregate() > | |v歩|v歩|v歩|v歩|v歩| | | | 17:57:58 @ core::rl::GameAggregator::aggregate() > +---+---+---+---+---+---+---+---+---+ 17:57:58 @ core::rl::GameAggregator::aggregate() > | | | | | | | | |v香| 17:57:58 @ core::rl::GameAggregator::aggregate() > +---+---+---+---+---+---+---+---+---+ 17:57:58 @ core::rl::GameAggregator::aggregate() > | | |^歩| | | |v歩| |v歩| 17:57:58 @ core::rl::GameAggregator::aggregate() > +---+---+---+---+---+---+---+---+---+ 17:57:58 @ core::rl::GameAggregator::aggregate() > | | | | | | | | | | 17:57:58 @ core::rl::GameAggregator::aggregate() > +---+---+---+---+---+---+---+---+---+ 17:57:58 @ core::rl::GameAggregator::aggregate() > | |v馬|v角|^歩|^歩|^歩|^歩| |^歩| 17:57:58 @ core::rl::GameAggregator::aggregate() > +---+---+---+---+---+---+---+---+---+ 17:57:58 @ core::rl::GameAggregator::aggregate() > | | | |^銀|^金|^金|^銀| | | 17:57:58 @ core::rl::GameAggregator::aggregate() > +---+---+---+---+---+---+---+---+---+ 17:57:58 @ core::rl::GameAggregator::aggregate() > |v龍| | |^香|^王| | |^桂|^香| 17:57:58 @ core::rl::GameAggregator::aggregate() > +---+---+---+---+---+---+---+---+---+ 17:57:58 @ core::rl::GameAggregator::aggregate() > 歩,香,桂,銀,金,角,飛 17:57:58 @ core::rl::GameAggregator::aggregate() > 2, 1, 2, 0, 0, 0, 0, 17:57:58 @ core::rl::GameAggregator::aggregate() > 3, 0, 0, 1, 0, 0, 0, 17:57:58 @ core::rl::GameAggregator::aggregate() > 手番:後手 17:57:58 @ core::rl::GameAggregator::aggregate() > 手数:56
ちなみに正則化は効果不明なんで、とりあえず無効にして学習しています。
んで、サンプリング数を増やした効果ですが、方策勾配の推定が上手く働き、どういう方向にパラメータを修正すればいいかがちゃんと計算出来る様になったのかもしれません。
三目並べとかリバーシの結果から、10局で大丈夫だろうと思い込んでいましたが、ひょっとしたらそれが間違いだったのかも。
とりあえず、引き続き学習させてみて様子を見ます。
*1:パラメータ修正を行う間隔