2009-05-09から1日間の記事一覧
予備実験。 UCTで序盤を指すと、どの程度の手数まで進めれるか調査。 探索を全幅2手+静止探索にしてVer.3のコードを動かしてみる。 一からコードを書き直す。 三目並べ・リバーシ・将棋を一つの強化学習エージェントで学習可能にする。 評価関数は差分計算…
体調不良を良い訳にしてグダグダと進行中。 んで、ソフトマックス方策は一時置いといて、勝率の検定とかのやり方を勉強&サンプルコードを書いたりしてました。 現状では、自作のコードで計算した95%信頼区間がakiさんの勝率計算機とかここのサイト*1とかの…