強化学習では方策が重要 - GA将？開発日記～王理のその先へ～

　もう何度目になるか分からないですが、「Softmax方策がコンピュータ将棋における強化学習の最適解」か迷っています。

　Softmax方策では「評価値が高い手ほど高確率で選択する」というのが基本動作ですが、別に学習中の自己対戦で勝率を上げた所で、最終的な強さに影響するか、というとそれは別問題なんじゃないかと。

　んで、試しにパラメータファイルの統計をとってみると、9割がたはごく小さい値しか付いていません。

　なんで、その9割のパラメータに対して適切な値を設定出来る方策が必要なんじゃないかと。

　原始的な方法は考えているんですが、理論的な裏付けがないので上手くいくかは不明。てか、多分ちゃんと動きません。

　という訳で、なんかいいアイデア無いかと論文をあさり中。こういう時間は結構楽しいです。