GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

最近興味がある事

 自己対戦強化学習をするにあたり、ソフトマックス方策によるサンプリングが最適では**無い**んじゃないかと思えてきました。

 ある程度の棋力のある人が、例えば「飛車角をタダで取れれば勝率が上がるよ」って言われても、大抵の人は「あぁそうですね」としか言わないと思います。

 んで、興味が有るのはそこではなくて、互角の局面から優勢に持っていく、あるいは優勢な局面から上手く寄せる、といった方法が知りたいはずです。

 という訳で重点サンプリングやらMCMCやら色々調べてあーでもないこーでもないと言っていたら、辿り着いたのがこの論文でした。

 https://library.naist.jp/mylimedio/dllimedio/showpdf2.cgi/DLPDFR006108_P1-44

 私が理解した範囲で大雑把にまとめると「複数の行動の中から、事後分散が最小になる行動を選択してサンプリングしていけばイイんじゃね?」って事らしいです。

 ただ、「分散が最小の行動」ではなく「分散が最も大きく減少する行動」の方が良さ気に見えるんですが、その辺どうなのかは不明。

 あと、数式が激ムズなんで、私がちゃんと理解して実装出来るかも謎。

 まぁ、ボチボチと進めていきます。最悪、コンピュータ将棋への応用は選手権後になるかも。