2009-04-16から1日間の記事一覧
将棋の学習関連 TDLeaf(λ)エージェントを再実装。 方策をエージェントから独立させる。 学習中の各種統計情報の収集・表示ルーチン実装。 std::vectorあたりを勉強しとくこと。 王手将棋での予備実験。 εグリーディーとソフトマックス手法の比較。 評価関数…
ちょっと前に学習させて、そのまま放っておいたパラメータを軽くテスト。強いとは言えないけど、まぁ悪くないレベルなんで、選手権用としてとりあえず確保しときます。 んで、今までは方策内部で1手全幅で読んで、その先で静止探索1段目4手+2段目無制限*1で…