2009-04-16から1日間の記事一覧

意外とやる事残ってる

TODO

将棋の学習関連 TDLeaf(λ)エージェントを再実装。方策をエージェントから独立させる。学習中の各種統計情報の収集・表示ルーチン実装。 std::vectorあたりを勉強しとくこと。王手将棋での予備実験。 εグリーディーとソフトマックス手法の比較。評価関数…

開発日記学習経過

ちょっと前に学習させて、そのまま放っておいたパラメータを軽くテスト。強いとは言えないけど、まぁ悪くないレベルなんで、選手権用としてとりあえず確保しときます。んで、今までは方策内部で1手全幅で読んで、その先で静止探索1段目4手＋2段目無制限*1で…