価値関数の違いによる学習の成否 - GA将？開発日記～王理のその先へ～

　自然TD学習での三目並べの学習。括弧内は収束までの（失敗した場合は学習打ち切りまでの）対局数です。

	テーブル形式の行動価値関数	線形近似の行動価値関数
テーブル形式の状態価値関数	○（1,500局）	×（2万局）
線形近似の状態価値関数	○（11,200局）	×（5,000局）

　えー、つまり行動価値関数として線形近似器使うとおかしくなる、と。

　あと、テーブル形式行動価値関数・線形近似状態価値関数のパターンで収束が遅くなってるのも問題ですね。

　う〜ん、これは結構ややこしい事になりそうな予感。