2013-09-16から1日間の記事一覧
えー、色々やってたら価値関数を両方共テーブル形式にしてもNGになりました。 いえ、原因は分かってるんで、トラブルとかそう言う事では無いですが。 原因つーのが探索ルーチンなんですが、今までは三目並べの場合は一手読みだけするルーチンを使ってました…
自然TD学習での三目並べの学習。括弧内は収束までの(失敗した場合は学習打ち切りまでの)対局数です。 テーブル形式の行動価値関数 線形近似の行動価値関数 テーブル形式の状態価値関数 ○(1,500局) ×(2万局) 線形近似の状態価値関数 ○(11,200局) ×(5…
つー訳で仕事から帰宅しました。今から4時間は楽しい楽しい開発タイムです。 んで、とりあえず現状。三目並べの評価関数を少し修正しました。 具体的には、今まではテーブル形式の評価関数だったのを、任意の3マスのパターンの線形和で近似するのも出来る様…