来たク〜〜
つー訳で仕事から帰宅しました。今から4時間は楽しい楽しい開発タイムです。
んで、とりあえず現状。三目並べの評価関数を少し修正しました。
具体的には、今まではテーブル形式の評価関数だったのを、任意の3マスのパターンの線形和で近似するのも出来る様にしました。
で、その結果、三目並べに関しては下記の通りです。
テーブル形式 | 線形近似 | |
---|---|---|
PGLeaf | ○ | ○ |
自然TD学習 | ○ | × |
あと、4x4リバーシですが、こちらは線形近似の評価関数のみで実験して、PGLeafは○・自然TD学習は×でした。
要するに「線形近似器を使って自然TD学習すると失敗する」って状況ですね。
ただ、自然TD学習では状態価値関数と行動価値関数の両方で評価関数を使いますので、片方はテーブル形式、片方は線形近似って形にしてみて、それでどうなるかを調査予定。
という訳で本日の開発、始まります。