GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

実験結果 三日分

 結局、学習は上手くいったり上手くいかなかったりでした。

 これは、学習率やε*1を状況に応じて変化させないとダメな感じですから、今からメタ強化学習*2を実装してみます。

 それと、手数ごとにパラメータを用意する方法と、初期配置・対局終了時の二つのパラメータと進行度を使う方法では、後者の方が少し学習が速いです。

 という訳で、石の位置による評価以外の部分も進行度を使う様に変更してみます。

*1:ランダムに行動を選択する確率

*2:学習率やε等のメタパラメータを強化学習で調整する方法