GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

選手権で見えた課題とその対策

 まず、課題。

  1. 駒割を重視しすぎて指し手がヌルい。
  2. 圧倒的な学習時間(≒対局数)不足。
  3. テキトー過ぎる思考時間制御。

 1.に関しては「15年前の評価関数だね」という感じの有り難い助言を頂きました。本当にその通りで、ここは改善の余地ありです。

 2.ですが、5五将棋モードでは1年間でレーティングが300上昇していたので、本将棋モードでもちゃんと時間をかければ、もうちょっとマシになっていた可能性があります。ただ、今後は「少ない対局数でも効率良く学習可能」って方向に持って行きたいので、「半年かけてPGLeaf Zweiの学習を回す」とかはしない予定です。

 3.はまぁ…統計とかちゃんと採らずに、勘で思考時間制御のパラメータ調整していたんで、単に私の手抜きです。

 んで、対策。ほとんど正攻法で行くつもりです。

  1. L2正則化が強すぎた可能性が有るので、その辺をちゃんと実験・比較してみる。
  2. 新しい(PGLeaf系では無い)学習ルーチンの設計・実装。
  3. 思考時間と指し手の変化割合の統計を採って、それをベースにパラメータ調整する&最低思考時間を1秒から5秒程度に伸ばす。

 とりあえず、この辺は来年の選手権までにやりたいですね。

 スケジュールとしては、まず2.の学習ルーチンを確立させ、その後1.の最適なメタパラメータを探る。最後に思考時間制御の統計採取*1って感じで考えています。

*1:分析するツールは学習走らせてる間に実装する