GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

ソフトマックス方策を実装

 以前作ったクラスを使ってゴチャゴチャと処理するだけなんで、割とスムーズに出来ました。

 んで、4x4のリバーシでの学習に成功したんで、以下自分用のメモ。

  • TD(0)+テーブル形式評価関数+ソフトマックス方策。
  • 目標探査率は0.1だと成功*1。0.02だと失敗。
  • 温度変化の度合いは1.01。
  • 学習率0.1。

 以上、メモ終わり。

 とりあえず後は適格度トレース(TD(λ)とかTDLeaf(λ)とかのλの処理)を実装すれば、将棋を実装する下準備は完了です。今月中には適格度トレースを動かせる状態まで持って行きたいですね。

*1:3回やって3回ともOKなだけだから、本当かは怪しいが。