PGLeaf Drei Phase1までロールバック - GA将？開発日記～王理のその先へ～

　久方ぶりの更新ですノシ

　PGLeaf Dreiですが、一応数日前にPhase 3まで実装は出来ました。

　ただ、どうもどっかおかしい様で、三目並べモードでも正しく収束しないケースが有ります。

　という訳で、一旦Phase 1まで戻して、関数近似の部分を中心にテスト中。

　論文では「収益とfwの自乗誤差を最小化する」と書かれているのですが、ここを「真の報酬とfwの自乗誤差を最小化」に変更するときちんと収束します。なので、関数近似やパラメータ更新のバグでは無さそうな印象です。

　三目並べでは一手間違えると即負けに繋がりますので、「収益を真の行動価値Q(s,a)の近似値と見なす」ってのが荒すぎる近似なんじゃないかなぁ、という気はしています。

　ただ、他にどうやって近似すれば良いかは全く思い付きませんので、ちょいと手詰まり気味です。

　…さて、結構困りましたね。