電車の中で色々考えてみた
今は自己対戦の経験から方策勾配法を使って評価関数のパラメータ学習を行なっているんですが、自己対戦時の方策*1は別に「強い方策」である必要は無いんじゃなかろうかと。
モンテカルロ木探索では散々言われている事ですが、どうもプレイアウト時の方策は「方策単体で指して強い」事よりも、「ある程度色々な対局が出現する」事の方が最終的な棋力向上に繋がるらしいです。
自己対戦学習時の方策も同じ理屈が通じるなら、方策自体の棋力向上(≒より深く読み、正しい手を指す確率を上げる)よりももっと他に重視すべき事があるんじゃないかな〜、と。
んで、私は「ひたすら攻める棋風」が見ていて楽しいんで、そういう方向に学習させたいです。
てな訳で、「探索中に金銀桂馬が前進したら、評価値に少し*2ボーナスを加算する」とかってしたらどうかと検討中。これだと、「どの手を指しても生の評価値に大差無い」局面では、駒が前進する手を選びやすくなる、ハズ。
ま、これもやってみないと分かんないんで、土日に実装して実験してみます。