以前作ったクラスを使ってゴチャゴチャと処理するだけなんで、割とスムーズに出来ました。
んで、4x4のリバーシでの学習に成功したんで、以下自分用のメモ。
- TD(0)+テーブル形式評価関数+ソフトマックス方策。
- 目標探査率は0.1だと成功*1。0.02だと失敗。
- 温度変化の度合いは1.01。
- 学習率0.1。
以上、メモ終わり。
とりあえず後は適格度トレース(TD(λ)とかTDLeaf(λ)とかのλの処理)を実装すれば、将棋を実装する下準備は完了です。今月中には適格度トレースを動かせる状態まで持って行きたいですね。