GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

「反省会モード(仮称)」のアルゴリズムについて

 昨夜思い付いたアイデアで、ひょっとしたら使えるかも? という感じのがあるので、メモがてら書いてみます。

 まず、前提として「自己対局での強化学習を行う」事とします。

 学習開始直後は、初期局面から自己対局&パラメータ修正を繰り返しつつ、「優勢だと判断していたのに、結果的に負けてしまった」局面をバッファに溜めて行きます。

 その後、バッファにある程度の局面が溜まったら自己対局のモードを切り替えて、「一定割合で初期局面から対局開始、それ以外はバッファからランダムに取得した局面から対局開始」とします。

 こうすると何が嬉しいかと言うと、「過去に形勢判断を誤った局面」を集中的に学習可能になるので、評価関数の精度が向上すると考えています。

 あと、「劣勢だと正しく判断出来る様になったら、バッファから削除する」という処理も必要かもしれません。

 UEC杯まで後1ヶ月有りませんが、今日明日にでも実装してみて、強くなったら実戦で使う事にします。