GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

合議と方策勾配法を組み合わせたアルゴリズムをデバッグ中

 一旦触るのをやめた合議方策勾配法*1デバッグ中。

 いきなり将棋だとテストに時間がかかりすぎるので、4x4のリバーシで実験中。

 …んで、通常の方策勾配法でちゃんと収束するのを確認して、その設定のまま合議方策勾配法に学習エージェントを変えると、ちゃんと収束しません。

 とりあえず、合議クライアントを1個に限定してちゃんと収束する様に頑張ってみますか。

*1:本当はもっと適した呼び方があるんですが、長いんでこっちの名称で。