GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

非グリーディー行動選択時の動作を修正

 今までは全ての手を等しい確率で選択するという処理だったのですが、Boltzmann分布を使って評価値の高い手ほど高確率で選ぶ様に変更しました。

 Boltzmann分布には温度というメタパラメータがあるのですが、それもメタ強化学習で修正可能に。

 今一回動かした感じだとメタ強化学習が上手く働いていた感じなので、学習用マシンで4プロセス同条件で動かしてみます。