GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

Let's 見切り発車

 そんな訳で、論文に載っている例題の結果を再現出来ませんでしたが、ボードゲーム用の自然TD学習エージェントを実装中。

 と言うか、既に昨夜から実装していて、残りはパラメータ更新部分を実装すれば完了です。

 とりあえず4x4リバーシで動かしてみて、PGLeafをぶっちぎって貰いたいです。

 あ、ちなみにアルゴリズムですが、論文に書いてある通りの自然TD学習ではなく、PGLeaf同様にαβ探索と組み合わせたものに拡張してあります。

 まぁ、探索を使う・使わないは簡単に切り替えれるので、拡張が上手く行かない様なら素の自然TD学習に戻します。