GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

二日分まとめ

開発日記

先後対称の評価関数では上手く行かない。
二駒の相対位置評価を先後非対称にすると、先後非対称の絶対位置評価が無くてもOK。
- パラメータ数の多い少ないは収束とは無関係？
二駒の相対位置評価を先後対称にした場合は、居玉を避ける傾向にある
- 学習初期段階での学習内容が、後々の行動に影響を与えている？
温度を徐々に下げても明確な改善は見られず。

んで、色々実験するにはエージェントと方策が独立していた方が都合が良いので、ここいらでエージェントを実装しなおすのも一つの手かも。

ついでにメタ強化学習を実装すれば、探査と知識利用のバランスをとるのも上手く……行かないかなぁ。行って欲しいなぁ。