2007-09-03 ちょっと追加 TODO リバーシ関連 盤面の実装 評価関数の実装(あまり複雑な事はしない) 石の位置・手番による評価 手数と石の数による評価 着手可能数 開放度 この後の進展次第で追加 MinMaxの実装n 探索値との平均二乗誤差の計算 αβの実装 必勝読みの実装 ← ここまでの目標 9月2日 適格度トレース メタ強化学習 Q学習の拡張(というか、一部処理の削除) 非グリーディーな行動選択時限定でのソフトマックス手法の使用 将棋関連 将棋で使う為に強化学習関連のクラスをC++に移植 詰め将棋の実装 将棋用の評価関数の実装 ← ここまでの目標9月中 駒割 絶対位置による評価 王将との相対位置による評価 二駒の位置関係(やらないかも・・・)