GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

電車の中で色々考えてみた

 今は自己対戦の経験から方策勾配法を使って評価関数のパラメータ学習を行なっているんですが、自己対戦時の方策*1は別に「強い方策」である必要は無いんじゃなかろうかと。

 モンテカルロ木探索では散々言われている事ですが、どうもプレイアウト時の方策は「方策単体で指して強い」事よりも、「ある程度色々な対局が出現する」事の方が最終的な棋力向上に繋がるらしいです。

 自己対戦学習時の方策も同じ理屈が通じるなら、方策自体の棋力向上(≒より深く読み、正しい手を指す確率を上げる)よりももっと他に重視すべき事があるんじゃないかな〜、と。

 んで、私は「ひたすら攻める棋風」が見ていて楽しいんで、そういう方向に学習させたいです。

 てな訳で、「探索中に金銀桂馬が前進したら、評価値に少し*2ボーナスを加算する」とかってしたらどうかと検討中。これだと、「どの手を指しても生の評価値に大差無い」局面では、駒が前進する手を選びやすくなる、ハズ。

 ま、これもやってみないと分かんないんで、土日に実装して実験してみます。

*1:指し手選択関数

*2:歩の価値*0.1くらい?