モンテカルロどうぶつしょうぎに反応してみる - GA将？開発日記～王理のその先へ～

　id:tihara:20090415:p1

　５五将棋よりさらに小さいどうぶつしょうぎでのモンテカルロを実際に作られた様です。ランダム指し→原始モンテカルロ→さらに改良と、だんだん強くなっていったみたいです。

　それで、将棋で強化学習をしている者の立場から、感想とか気になった事を色々と書いてみようと思います。

なお、プレイアウト数が増えてくると、探索空間が狭いので、終局のパターン数が非常に少なくなってしまい、（実感できる）強さと勝率の間に隔たりが生まれる。

　プレイアウトの結果を用いて、それ以降のプレイアウトの内容が偏る様にされているとの事ですが、その関係でこういう現象が起きているのだと思います。

　もし可能であれば、プレイアウト数を増やすに従って「偏らせ方」を抑えめにする（1プレイアウトではあまり偏らない様にする）と、プレイアウト数の増加に従って強くなるんじゃないかと思います（あくまで私のカンで、全く検証していないですが）。

また、モンテカルロ法そのものの理論はどうやらかなり奥が深そうなので、モンテカルロ法の結果をモンテカルロ法に反復的に使用するというアイディアはきっと相当古くからあることと思う。

　（強化学習用語での）モンテカルロとかTD法とかではGeneralized Policy Iteration（一般化方策反復）と言って、割と基本的なアイデアみたいです（私もこれに関してはおぼろげにしか理解していないですが）。

　モンテカルロ囲碁・将棋で同じアイデアが実装されているかどうかは分かりませんが、このやり方はαβ探索のムーブオーダリングとかにも応用出来そうだと思います。