今更ながら、自己対戦での学習がなんか変
簡易版ボナメソで学習させたパラメータを持ち越して学習させてみても、でたらめな手しか指さない。
んで、方策をソフトマックスからεグリーディーに変えるとちゃんと指してるので、ソフトマックス方策がおかしい模様。
とりあえず仮の対処としてεグリーディーで動かして、これでちゃんと学習するか試してみます。
ついでにεグリーディー自体も手を入れて、ちょっと高速化&コードの整理。
簡易版ボナメソで学習させたパラメータを持ち越して学習させてみても、でたらめな手しか指さない。
んで、方策をソフトマックスからεグリーディーに変えるとちゃんと指してるので、ソフトマックス方策がおかしい模様。
とりあえず仮の対処としてεグリーディーで動かして、これでちゃんと学習するか試してみます。
ついでにεグリーディー自体も手を入れて、ちょっと高速化&コードの整理。