GA将?開発日記~原点回帰~

ネタ勢最強を目指して絶賛開発中。

リバーシでカーネル法評価関数を実装開始

 の前に、元の評価関数でテスト。条件は下記の通り。

  • 4x4リバーシ
  • TD(λ)
  • ソフトマックス方策
  • 初期温度10.0
  • テーブル形式評価関数
  • 学習率0.5

 結果はこうなりました。

学習条件 結果 収束までの対局数
先後とも学習 ○(-8) 約1万3千局
先手のみ学習 ×(+10) 約2千局
後手のみ学習 ○(-14) 約500局

 とりあえずTD(λ)用にカーネル法評価関数を実装して、収束速度と結果が改善するのを期待しましょう。