GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

リバーシでカーネル法評価関数を実装開始

開発日記

　の前に、元の評価関数でテスト。条件は下記の通り。

4x4リバーシ
TD(λ)
ソフトマックス方策
初期温度10.0
テーブル形式評価関数
学習率0.5

　結果はこうなりました。

学習条件	結果	収束までの対局数
先後とも学習	○(-8)	約1万3千局
先手のみ学習	×(+10)	約2千局
後手のみ学習	○(-14)	約500局

　とりあえずTD(λ)用にカーネル法評価関数を実装して、収束速度と結果が改善するのを期待しましょう。