囲ってるつもり?
昨夜から走らせていた、対局開始から50手だけを学習対象とするバージョンですが、「王将の周りに駒を集めれば勝ちやすい」位は理解したみたいです。
終局図は例えばこんな感じになります。
8260局終了 +---+---+---+---+---+---+---+---+---+ | | | |^と| | | | | | +---+---+---+---+---+---+---+---+---+ | | |v銀|^飛|v銀|^全|^杏| | | +---+---+---+---+---+---+---+---+---+ | | | | | | | | | | +---+---+---+---+---+---+---+---+---+ |v歩| |^圭|v歩|v歩|^と| |^歩|v歩| +---+---+---+---+---+---+---+---+---+ |^歩| |^歩| | | | | |v香| +---+---+---+---+---+---+---+---+---+ | | | | | | |^歩|v飛|^歩| +---+---+---+---+---+---+---+---+---+ | |^歩|^桂|^歩|^桂|^歩|^角| |^香| +---+---+---+---+---+---+---+---+---+ |vと|^角|^金|^王|^歩|v金|v歩| | | +---+---+---+---+---+---+---+---+---+ |^香| |^銀|^桂| | |v金|v王|^金| +---+---+---+---+---+---+---+---+---+ 歩,香,桂,銀,金,角,飛 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 手番:後手 手数:378
先手はまぁ、以前のバージョンよりはマシなレベルになってますね。5六桂一発で詰むんで、ヒジョーに危なっかしいですが。
となると、序盤〜終盤まで学習させても弱いのは、学習エージェントの中盤〜終盤の処理に何か問題があるのか、それとも評価関数の精度の問題*1か、そんな所でしょうか。
あれ、でも、5五将棋はいきなり中盤から始まるみたいなもんだから、進行度が無いから評価関数の精度が低いって可能性はあんまりないのかな?
うーん、どうなんだろう。
// 17:38追記
ちなみに、評価関数のパラメータはごく小さな乱数で初期化し、棋譜や次の一手問題を使わずに、自己対戦の結果だけから学習しました。つまり、人間の知識は(評価関数の特徴量計算・探索以外には)全く使っていません。
*1:進行度が無いので、序盤と終盤のパラメータの差が大きいと問題が発生するとか