4x4のリバーシで実験してみました。
- TD(0)・εグリーディー(ε=0.01)・テーブル形式評価関数は成功
- TD(0)・ソフトマックス(温度=0.75)・テーブル形式評価関数は成功
- TDLeaf(λ)・αβ1手・ソフトマックス(温度=0.75)・テーブル形式評価関数は失敗
- TDLeaf(λ)・αβ3手・ソフトマックス(温度=0.75)・線形評価関数は成功
って事は、TDLeaf(λ)とテーブル形式の評価関数だと上手く行かない?
と言うか、TDLeaf(λ)は評価関数に汎化能力が無いとダメなのか?
うーん…