GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

対Bonanzaでの学習の途中経過

 対局条件ですが、GA将!!!!は通常の評価項目+探索は全幅2手*1・静止探索4手。Bonanzaは定跡ありで探索深さ3に制限、Resignは3000。Bonanzaの深さは、BonanzaとGA将!!!!で思考時間がほぼ同じになる様に決めました。

   (クリックで原寸大表示します)

 上のグラフは学習の経過をグラフにしたもので、横軸が対局数(÷100なので、41100局分)です。上半分が駒の価値(左側の目盛)、下半分がGA将!!!!から見た勝率の推移(右側の目盛)です。

 まず勝率ですが、調子が良いと6割超えます。これは理由が多分二つあって、Bonanzaが評価値-3000で投了するというのが一つ、もう一つは後述。

 それから、駒価値のグラフがガクッと変化している部分で、同時に対Bonanzaの勝率も落ちています。因果関係は不明ですが、何か理由があっての現象でしょうから、可能であれば調べてみます。

 で、肝心の強さ。弱いです。sspどころかLesserkaiにすらボロボロ負けます。仮にもBonanza3手読みに勝率6割のパラメータとは思えません。

 という訳で現時点での結論。「Bonanzaに勝てさえすれば良い、というパラメータになってしまっている。」

 ただ、GA将!!!!がどうあがいても勝てない様な条件(Bonanzaの思考時間を1秒にする、とか)で学習するとまた違った結果になるかもしれないんで、改めて実験してみるつもりです。

*1:いつもの書き方だと全幅1手ですが、Bonanzaにあわせて表記します。