価値関数の違いによる学習の成否
自然TD学習での三目並べの学習。括弧内は収束までの(失敗した場合は学習打ち切りまでの)対局数です。
テーブル形式の行動価値関数 | 線形近似の行動価値関数 | |
---|---|---|
テーブル形式の状態価値関数 | ○(1,500局) | ×(2万局) |
線形近似の状態価値関数 | ○(11,200局) | ×(5,000局) |
えー、つまり行動価値関数として線形近似器使うとおかしくなる、と。
あと、テーブル形式行動価値関数・線形近似状態価値関数のパターンで収束が遅くなってるのも問題ですね。
う〜ん、これは結構ややこしい事になりそうな予感。