電車の中で色々考えてみた - GA将？開発日記～王理のその先へ～

　今は自己対戦の経験から方策勾配法を使って評価関数のパラメータ学習を行なっているんですが、自己対戦時の方策*1は別に「強い方策」である必要は無いんじゃなかろうかと。

　モンテカルロ木探索では散々言われている事ですが、どうもプレイアウト時の方策は「方策単体で指して強い」事よりも、「ある程度色々な対局が出現する」事の方が最終的な棋力向上に繋がるらしいです。

　自己対戦学習時の方策も同じ理屈が通じるなら、方策自体の棋力向上（≒より深く読み、正しい手を指す確率を上げる）よりももっと他に重視すべき事があるんじゃないかな〜、と。

　んで、私は「ひたすら攻める棋風」が見ていて楽しいんで、そういう方向に学習させたいです。

　てな訳で、「探索中に金銀桂馬が前進したら、評価値に少し*2ボーナスを加算する」とかってしたらどうかと検討中。これだと、「どの手を指しても生の評価値に大差無い」局面では、駒が前進する手を選びやすくなる、ハズ。

　ま、これもやってみないと分かんないんで、土日に実装して実験してみます。

*1:指し手選択関数

*2:歩の価値＊0.1くらい？