GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

二日分まとめ

  • 先後対称の評価関数では上手く行かない。
  • 二駒の相対位置評価を先後非対称にすると、先後非対称の絶対位置評価が無くてもOK。
    • パラメータ数の多い少ないは収束とは無関係?
  • 二駒の相対位置評価を先後対称にした場合は、居玉を避ける傾向にある
    • 学習初期段階での学習内容が、後々の行動に影響を与えている?
  • 温度を徐々に下げても明確な改善は見られず。

んで、色々実験するにはエージェントと方策が独立していた方が都合が良いので、ここいらでエージェントを実装しなおすのも一つの手かも。

ついでにメタ強化学習を実装すれば、探査と知識利用のバランスをとるのも上手く……行かないかなぁ。行って欲しいなぁ。