- 先後対称の評価関数では上手く行かない。
- 二駒の相対位置評価を先後非対称にすると、先後非対称の絶対位置評価が無くてもOK。
- 二駒の相対位置評価を先後対称にした場合は、居玉を避ける傾向にある
- 学習初期段階での学習内容が、後々の行動に影響を与えている?
- 温度を徐々に下げても明確な改善は見られず。
んで、色々実験するにはエージェントと方策が独立していた方が都合が良いので、ここいらでエージェントを実装しなおすのも一つの手かも。
ついでにメタ強化学習を実装すれば、探査と知識利用のバランスをとるのも上手く……行かないかなぁ。行って欲しいなぁ。