2011-11-12 リバーシでカーネル法評価関数を実装開始 開発日記 の前に、元の評価関数でテスト。条件は下記の通り。 4x4リバーシ TD(λ) ソフトマックス方策 初期温度10.0 テーブル形式評価関数 学習率0.5 結果はこうなりました。 学習条件 結果 収束までの対局数 先後とも学習 ○(-8) 約1万3千局 先手のみ学習 ×(+10) 約2千局 後手のみ学習 ○(-14) 約500局 とりあえずTD(λ)用にカーネル法評価関数を実装して、収束速度と結果が改善するのを期待しましょう。