TreeStrap(αβ)だと上手く行ってるっポイです
学習率0.1**6でやったバージョンだと、駒割位はちゃんと理解している雰囲気です。
学習率は0.1**6〜0.1**7の間位がベストかも。前者だと収束後に値の上下が激しいし、後者だと収束遅い。
という訳で、学習率を0.1**6から始めて、1000局かけて0.1倍まで減少、その後は減少も増加もしないって設定でやってみます。
学習率0.1**6でやったバージョンだと、駒割位はちゃんと理解している雰囲気です。
学習率は0.1**6〜0.1**7の間位がベストかも。前者だと収束後に値の上下が激しいし、後者だと収束遅い。
という訳で、学習率を0.1**6から始めて、1000局かけて0.1倍まで減少、その後は減少も増加もしないって設定でやってみます。