2017-05-19から1日間の記事一覧

Curiosity-driven Exploration by Self-supervised Prediction

後で読む

piqcyさんのツイートから発見。強化学習において、特に高次元になると報酬が得られる機会はとても少なくなる。そこで「好奇心」、つまり新規性のある環境への到達について報酬を設定することで学習速度を上げる試み。これによりベースライン(A3C)よりも高い…

開発日記

現在のGA将の評価関数は、Bonanza 6.0の三駒関係をベースに手番を考慮した評価も実装しています。 …で、テストしていたらKKPの手番考慮の部分でロジックの誤りを発見。ちょっと規模が大きな修正になりそうなので、じっくり設計してから修正する事にしました…