GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

方策勾配法に関する幾つかの事

開発日記

　とりあえず多碗バンディット問題で実験してみて、分かった事。

ちゃんと収束するし、εグリーディーより性能良い→基本的な考え方自体は間違っていないらしい。
温度には意外と敏感。
温度=1.0だと収束後の報酬が温度=2.0より微妙に少なくなるものの、収束速度は段違いに速い（ざっと2〜3倍）。
温度=0.5は収束速度・収束後の挙動共に問題外。
学習率は1.0で良いかも。0.75とか0.5でも、収束後の報酬に大差は無い（最適行動率は微妙に良くなるが）。
学習率を0.1とか0.01にすると、収束までの時間がそれぞれ10倍・100倍程度になる。割と論外な感じ。
サンプリング数M*1は収束速度と収束後の挙動のトレードオフになる。
M=10位がベスト。収束速いし、収束後の挙動も良い。ただし、最適行動率はM=100の方が良い。
M=2だと収束速いものの収束後の挙動が悪い。

　さて、そうすると三目並べで先手だけの学習が上手く行かないのは何でだろう？一エピソードに複数の行動選択があるから？それとも方策空間が広いからか？

*1:何エピソードごとにパラメータを修正するかを制御する値