GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

今更ながら、自己対戦での学習がなんか変

 簡易版ボナメソで学習させたパラメータを持ち越して学習させてみても、でたらめな手しか指さない。

 んで、方策をソフトマックスからεグリーディーに変えるとちゃんと指してるので、ソフトマックス方策がおかしい模様。

 とりあえず仮の対処としてεグリーディーで動かして、これでちゃんと学習するか試してみます。

 ついでにεグリーディー自体も手を入れて、ちょっと高速化&コードの整理。