私がボナメソに手を出そうとしている理由
唐突ですが、Bonanza Methodに手を出すつもりです。
…の話の前に、まずは今後やろうとしている事から。
やる事は「プランニング」で、要するに環境のモデルを用いた学習です。モデルというのは「エージェントの行動に対して、環境からどういう反応が返ってくるかの予測」で、将棋の場合だと「ある局面での相手の指し手の予測」になります。
モデルがあると何が嬉しいかと言うと、標準的な棋士(OR ソフト)の反応が予測出来るので、それをベースにして学習し、どう指せば強くなるかが学習可能になります。
今考えているのは、Bonanza相手のローカル対局なりfloodgateでの対局なりからモデルを構築し(評価関数を学習し)、それをベースに自己対戦してさらに強い評価関数を得よう、という方法です。対局相手の知識を盗む事になって、ちとずるい気もしましたが、強くなりそうならまずはやってみようと思って実行を決断しました。
んで、そのモデルの構築ですが、まさにボナメソがその用途にピッタリ合うので、ここはひとつ使わしてもらおうかと思っています。
これで、上手く行けば囲ったりちゃんと駒を進めて攻めたりてのが出来る様にならないかと期待…してるんですが、出来るかなぁ… なんか、ヒジョーに先行き不安です。
一番の難点は、入集出来る棋譜の数が少なすぎる事なんですよね。Bonanzaの自己対戦の棋譜は2000しか手元に無いですし、floodgateでの自分の棋譜だともっと少ないです。
となるとオーバーフィッティングして変な手ばっかり指す様になりそうなのが心配なんですが、まぁやってみなきゃ分かんないんでやってみます。