2008-10-26 色々修正 TODO 開発の方はさっぱり進まないです。この分だと、年内に完成も難しいかも… リバーシでの予備実験 TDLeaf(λ)実装。 メタ強化学習で、状態を見て行動選択する様に変更。 メタ強化学習で、状態の表現方法を検討。 εグリーディーとソフトマックス手法の比較。 TDLeaf(λ)とTD(λ)の比較。 将棋の学習関連 TDLeaf(λ)エージェントを再実装。 方策をエージェントから独立させる。 メタ強化学習対応。 メタ強化学習の移植。 学習中の各種統計情報の収集・表示ルーチン実装。 対局部分の並列化。 他のソフトとの連続対戦ルーチン実装(勝率での検証用)。 評価関数でのstd::mapの使用をやめる。 ひょっとしたらテンプレートを使用する必要があるかも。ここら辺は要検討。 ハッシュ表の再実装。 MTD(f)再実装。静止探索部分でもハッシュを使用する。 将棋のルールの細かい部分の実装。 千日手・連続王手の千日手の検出。 入玉宣言の実装。 詰みとステイルメイトの区別。 打ち歩詰めと打ち歩ステイルメイトの検出。 探索に頓死チェックを追加。(※必要に応じて) 選手権での対局用 USIにちゃんと対応 MTD-∞の実装 思考時間制御