2015-04-24 上の続き 開発日記 アイデアメモ SR-PGLeafでは予測報酬(≒特定局面から先の勝率)が計算出来るから、それを利用する前提ならもうちょっとアルゴリズムを簡略化出来るかも。 評価関数パラメータを初期化する。 以下を無限に繰り返す。 自己対局で1局指す。 棋譜の各局面の予測勝率を計算する。 予測勝率が一定範囲内の局面を対象に、以下を適当な回数(10回とか100回とか)繰り返す。 各局面で深い探索を行う。 末端局面の評価値を基準として予測報酬を計算する。 評価関数パラメータを修正する。 うん、これなら学習時間を減らせれそうな気がする。