強化学習将棋へのプランニングの導入を検討中
森北出版の「強化学習」によると、環境のモデル*1を用いない手法を「学習」、用いる手法を「プランニング」と呼ぶそうです。
で、今までの私のプログラムは前者だったんですが、他のソフト相手での対局から学習するならプランニングの方が相性いいかもと思って、そっちの使用も検討&勉強中。
ただまぁ、他のソフト相手に学習すると「そのソフトに勝つ為のパラメータ」になっちゃいそうで、ちゃんと強くなるかどうか不明なのでその辺心配です。まぁ、確かめるにはやってみるしかないんですが。
実際にやるとしたら、Bonanza3手読みとかに相手してもらうかな。通信プロトコルは公開されてるみたいですし、プロセス間通信さえ扱えれば何とかなるかも。
もしくはfloodgateで学習…って、それってやって良いのかな? あそこはあくまで練習試合の場で、それ以外の事するとマズそうな気もするが…まぁ、その辺は実際にやる事になったら管理者の人に聞いてみる事にします。
*1:状態遷移とかその時得られる報酬とかの知識