GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

基本に戻って調査中

4x4のリバーシで実験してみました。

  • TD(0)・εグリーディー(ε=0.01)・テーブル形式評価関数は成功
  • TD(0)・ソフトマックス(温度=0.75)・テーブル形式評価関数は成功
  • TDLeaf(λ)・αβ1手・ソフトマックス(温度=0.75)・テーブル形式評価関数は失敗
  • TDLeaf(λ)・αβ3手・ソフトマックス(温度=0.75)・線形評価関数は成功

って事は、TDLeaf(λ)とテーブル形式の評価関数だと上手く行かない?

と言うか、TDLeaf(λ)は評価関数に汎化能力が無いとダメなのか?

うーん…