2018-08-08から1日間の記事一覧

プランAの進捗状況

開発日記

プランAですが、本命は「モンテカルロサンプリングを用いて行動価値関数の勾配を求める」方式なんですが、とりあえず妥協して厳密に勾配を求める方式に変更。んで、Bootstrap部分は手を加えてないので正常動作。Q(λ)はまだバグ持ち… 現在は三目並べモードで…