GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2011-08-29から1日間の記事一覧

三目並べ・リバーシでの実験結果

学習条件は下記の通り。 方策勾配法+ソフトマックス方策 初期温度0.02 温度可変、目標探査率0.05 学習しない側のプレイヤーは、合法手リストの最初の手を指す 先手のみ学習 後手のみ学習 両方学習 三目並べ ○(50局ほどでちゃんと収束) ○(50局ほどでちゃん…

昨夜から走らせた結果

テーブル形式の評価関数で先手だけ学習しても、ちゃんとした結果にはなりませんでした。 ログを見てると平均報酬とベースラインの関係がおかしい*1ので、その辺を一度調べてみます。 *1:相関係数が低い