GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2019-09-11から1日間の記事一覧

PGLeaf Vier再実装中

まず、学習方策と挙動方策を分けて、学習方策の方は重点サンプリングを用いてOff-Policyで学習する様にした。 挙動方策の報酬は「基本報酬は勝敗に応じて+1/-1/0」「サブ報酬として対局中の予測勝率と実際の勝敗に応じたボーナス」としてみた。 サブ報酬の方…