GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

PGLeaf Drei Phase1までロールバック

 久方ぶりの更新です ノシ

 PGLeaf Dreiですが、一応数日前にPhase 3まで実装は出来ました。

 ただ、どうもどっかおかしい様で、三目並べモードでも正しく収束しないケースが有ります。

 という訳で、一旦Phase 1まで戻して、関数近似の部分を中心にテスト中。

 論文では「収益とfwの自乗誤差を最小化する」と書かれているのですが、ここを「真の報酬とfwの自乗誤差を最小化」に変更するときちんと収束します。なので、関数近似やパラメータ更新のバグでは無さそうな印象です。

 三目並べでは一手間違えると即負けに繋がりますので、「収益を真の行動価値Q(s,a)の近似値と見なす」ってのが荒すぎる近似なんじゃないかなぁ、という気はしています。

 ただ、他にどうやって近似すれば良いかは全く思い付きませんので、ちょいと手詰まり気味です。

 …さて、結構困りましたね。