GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

強化学習では方策が重要

 もう何度目になるか分からないですが、「Softmax方策がコンピュータ将棋における強化学習の最適解」か迷っています。

 Softmax方策では「評価値が高い手ほど高確率で選択する」というのが基本動作ですが、別に学習中の自己対戦で勝率を上げた所で、最終的な強さに影響するか、というとそれは別問題なんじゃないかと。

 んで、試しにパラメータファイルの統計をとってみると、9割がたはごく小さい値しか付いていません。

 なんで、その9割のパラメータに対して適切な値を設定出来る方策が必要なんじゃないかと。

 原始的な方法は考えているんですが、理論的な裏付けがないので上手くいくかは不明。てか、多分ちゃんと動きません。

 という訳で、なんかいいアイデア無いかと論文をあさり中。こういう時間は結構楽しいです。