GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2017-05-19から1日間の記事一覧

Curiosity-driven Exploration by Self-supervised Prediction

piqcyさんのツイートから発見。強化学習において、特に高次元になると報酬が得られる機会はとても少なくなる。そこで「好奇心」、つまり新規性のある環境への到達について報酬を設定することで学習速度を上げる試み。これによりベースライン(A3C)よりも高い…

おおう、KKPにバグ発見

現在のGA将の評価関数は、Bonanza 6.0の三駒関係をベースに手番を考慮した評価も実装しています。 …で、テストしていたらKKPの手番考慮の部分でロジックの誤りを発見。 ちょっと規模が大きな修正になりそうなので、じっくり設計してから修正する事にしました…