Let's 見切り発車 - GA将？開発日記～王理のその先へ～

　そんな訳で、論文に載っている例題の結果を再現出来ませんでしたが、ボードゲーム用の自然TD学習エージェントを実装中。

　と言うか、既に昨夜から実装していて、残りはパラメータ更新部分を実装すれば完了です。

　とりあえず4x4リバーシで動かしてみて、PGLeafをぶっちぎって貰いたいです。

　あ、ちなみにアルゴリズムですが、論文に書いてある通りの自然TD学習ではなく、PGLeaf同様にαβ探索と組み合わせたものに拡張してあります。

　まぁ、探索を使う・使わないは簡単に切り替えれるので、拡張が上手く行かない様なら素の自然TD学習に戻します。