2012-03-31 合議と方策勾配法を組み合わせたアルゴリズムをデバッグ中 開発日記 一旦触るのをやめた合議方策勾配法*1をデバッグ中。 いきなり将棋だとテストに時間がかかりすぎるので、4x4のリバーシで実験中。 …んで、通常の方策勾配法でちゃんと収束するのを確認して、その設定のまま合議方策勾配法に学習エージェントを変えると、ちゃんと収束しません。 とりあえず、合議クライアントを1個に限定してちゃんと収束する様に頑張ってみますか。 *1:本当はもっと適した呼び方があるんですが、長いんでこっちの名称で。