三目並べでのメタ強化学習実装完了（多分） - GA将？開発日記～王理のその先へ～

昨日書いたバグはマルチスレッドがらみでした。対局終了後にGAの世代交代をしているタイミングで、同時に次の対局が始まると起きるらしいです。

それから、メタエージェントに与える報酬が-1〜1になってたんで、0〜1に修正。やや良くなった感じがするかもしれません。

んで結果。

メタパラメータ手打ちと比較すると、収束の速度は同等で収束後の挙動は良くなってます。これなら満足出来るレベルですね。

ただ、一つ気になる事が。今は学習アルゴリズムにQ学習を使ってるんですが、自分の行動がグリーディーかどうか*1だけではなく、相手の行動がグリーディーかどうかも考えないとまずそうな現象が起きてます。

これに関してはリバーシでメタ強化学習を実装する時に対処してみます。どのみちTDLeaf(λ)を実装するつもりでしたし、そのタイミングで一緒にやれば手間は少いですから。

*1:最前手を指したかどうか