そんな訳で、論文に載っている例題の結果を再現出来ませんでしたが、ボードゲーム用の自然TD学習エージェントを実装中。
と言うか、既に昨夜から実装していて、残りはパラメータ更新部分を実装すれば完了です。
とりあえず4x4リバーシで動かしてみて、PGLeafをぶっちぎって貰いたいです。
あ、ちなみにアルゴリズムですが、論文に書いてある通りの自然TD学習ではなく、PGLeaf同様にαβ探索と組み合わせたものに拡張してあります。
まぁ、探索を使う・使わないは簡単に切り替えれるので、拡張が上手く行かない様なら素の自然TD学習に戻します。