強化学習では方策が重要
もう何度目になるか分からないですが、「Softmax方策がコンピュータ将棋における強化学習の最適解」か迷っています。
Softmax方策では「評価値が高い手ほど高確率で選択する」というのが基本動作ですが、別に学習中の自己対戦で勝率を上げた所で、最終的な強さに影響するか、というとそれは別問題なんじゃないかと。
んで、試しにパラメータファイルの統計をとってみると、9割がたはごく小さい値しか付いていません。
なんで、その9割のパラメータに対して適切な値を設定出来る方策が必要なんじゃないかと。
原始的な方法は考えているんですが、理論的な裏付けがないので上手くいくかは不明。てか、多分ちゃんと動きません。
という訳で、なんかいいアイデア無いかと論文をあさり中。こういう時間は結構楽しいです。