2009-04-16 意外とやる事残ってる TODO 将棋の学習関連 TDLeaf(λ)エージェントを再実装。 方策をエージェントから独立させる。 学習中の各種統計情報の収集・表示ルーチン実装。 std::vectorあたりを勉強しとくこと。 王手将棋での予備実験。 εグリーディーとソフトマックス手法の比較。 評価関数を非線型に修正して、従来バージョンと比較。 先後入れ替えて収束するかテスト。 ハッシュ表の再実装。 評価関数でのstd::mapの使用をやめる。 ひょっとしたらテンプレートを使用する必要があるかも。ここら辺は要検討。 評価項目の追加:王将との相対位置。 対局部分の並列化。 評価関数に直線探索実装。 将棋のルールの細かい部分の実装。 千日手・連続王手の千日手の検出。 入玉宣言の実装。 打ち歩詰めの検出。 floodgate参戦 選手権での対局用 USIにちゃんと対応。 思考時間制御。今のルーチンだと時々長考するんで、その対処。 ログ出力の整理。後で見てちゃんと再現出来る様に。 それから、選手権終わったらやりたい事。 コンピュータ将棋の改良 一からコードを書き直す(現在も進行中) 三目並べ・リバーシ・将棋を一つの強化学習エージェントで学習可能にする 序盤はUCTで指すのを試す Ponderの実装 とりあえず普通の 相手番に、対局中の局面から学習してみる カブロボに手を出してみる