振り出しに戻る？

開発日記

えー、色々やってたら価値関数を両方共テーブル形式にしてもNGになりました。いえ、原因は分かってるんで、トラブルとかそう言う事では無いですが。原因つーのが探索ルーチンなんですが、今までは三目並べの場合は一手読みだけするルーチンを使ってました…

価値関数の違いによる学習の成否

開発日記

自然TD学習での三目並べの学習。括弧内は収束までの（失敗した場合は学習打ち切りまでの）対局数です。テーブル形式の行動価値関数線形近似の行動価値関数テーブル形式の状態価値関数 ○（1,500局） ×（2万局）線形近似の状態価値関数 ○（11,200局） ×（5…

開発日記

つー訳で仕事から帰宅しました。今から4時間は楽しい楽しい開発タイムです。んで、とりあえず現状。三目並べの評価関数を少し修正しました。具体的には、今まではテーブル形式の評価関数だったのを、任意の3マスのパターンの線形和で近似するのも出来る様…