GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

やっぱり収束した

 昨日の続きですが、目標探索率を0.05にしてたら収束してない様に見えましたが、0.0にしたら4千局ほどで収束しました。

 その他の条件は下記の通り。

  • 方策オフTDLeaf(λ)。
  • ソフトマックス方策。
  • テーブル形式の評価関数。初期値は-1.0〜1.0の範囲の一様乱数。学習率0.1。

 目標探索率0.05だとどういう現象が起きてるか気になるので、情報表示系を実装してログを見てみる事にします。

4x4のリバーシでもちゃんと収束

 "平均石差"が自己対戦終局時の石の数の差の平均で、"平均石差(グリーディー方策)"の方が、初手から終局まで評価値が最大の手を選び続けた場合の石差です。

 平均石差の方は-8よりやや小さな値になってますが、グリーディー方策の方はピッタリ-8になってます。

 ちなみに評価関数は例によってテーブル形式で、パラメータの初期値は0.0、学習率は三目と同じく0.1です。

そう言えばハイエンドデスクトップ向けSandy Bridgeの話

 http://a96sj096.cocolog-nifty.com/weblog/2011/05/computex-taipei.html

 ちょっと前から噂にはなってたんですが、Extreme版でも6コアらしいですね。

 という事は、8コアはXeonだけって事なんで、ちょっと残念です。

 と言うか、6コアでBulldozerに対抗出来るんでしょうかね? どうなんだろう。