ここ数日やった事
相変わらず、序盤〜終盤まで全部を学習対象とするとちゃんと囲ってくれません。
んで、進行度が中盤あたりで急激に変わった方が良いかもしれないと思い、進行度を0と1の二通りだけ*1にしてみたり、シグモイド関数使って中盤に急に変化する様にしてみました。
ただ、これは全く効果無しでした。
後は方策勾配法エージェントのデバッグとか、評価関数のデバッグとか。これも全く成果無し。一つもバグを発見出来ませんでした。
となるとどっかアルゴリズムの理解が間違っているとか、その辺が気になりだしたんで、いっぺんそこら辺を調べてみます。
あ、そうそう。色々いじっているうちに、序盤50手だけを学習対象としても囲わなくなりました。どうなってんだよ _| ̄|○
*1:一旦計算し、0.5以下なら0、0.5より大きければ1として扱う