GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

価値関数の違いによる学習の成否

 自然TD学習での三目並べの学習。括弧内は収束までの(失敗した場合は学習打ち切りまでの)対局数です。

テーブル形式の行動価値関数 線形近似の行動価値関数
テーブル形式の状態価値関数 ○(1,500局) ×(2万局)
線形近似の状態価値関数 ○(11,200局) ×(5,000局)

 えー、つまり行動価値関数として線形近似器使うとおかしくなる、と。

 あと、テーブル形式行動価値関数・線形近似状態価値関数のパターンで収束が遅くなってるのも問題ですね。

 う〜ん、これは結構ややこしい事になりそうな予感。