三目並べでのメタ強化学習実装完了(多分)
昨日書いたバグはマルチスレッドがらみでした。対局終了後にGAの世代交代をしているタイミングで、同時に次の対局が始まると起きるらしいです。
それから、メタエージェントに与える報酬が-1〜1になってたんで、0〜1に修正。やや良くなった感じがするかもしれません。
んで結果。
メタパラメータ手打ちと比較すると、収束の速度は同等で収束後の挙動は良くなってます。これなら満足出来るレベルですね。
ただ、一つ気になる事が。今は学習アルゴリズムにQ学習を使ってるんですが、自分の行動がグリーディーかどうか*1だけではなく、相手の行動がグリーディーかどうかも考えないとまずそうな現象が起きてます。
これに関してはリバーシでメタ強化学習を実装する時に対処してみます。どのみちTDLeaf(λ)を実装するつもりでしたし、そのタイミングで一緒にやれば手間は少いですから。
*1:最前手を指したかどうか