「Combining policy gradient and Q-learning」を読んで、実装する為に最低限必要な知識をまとめてみた。

開発日記

arxiv.org 前提二人零和有限確定完全情報ゲームで、自己対局の結果からPGQ（論文の提案アルゴリズム）を用いて評価関数パラメータの学習を行う事を目的とします。報酬は「勝ち：+1、引き分け：0、負け：-1」と設定し、終局後に報酬を与えるものとします。 …

まだまだ迷走中…

開発日記学習経過

Factorization Machineを使用した疑似四駒関係は結局上手く行きませんでした。という訳で、PPT＋αで何とか強くしようと色々いじってます。とりあえず、今までは割引率γを1に設定していましたが、これだとチョットぬるい手を指す事があるので、γ=0.99で学習…

開発日記

三駒関係だと収束まで時間がかかりすぎるので無理だと判断して、ひまわりさん方式の学習も私には無理で、かと言って二駒関係では伸び代が少ないし… という訳で、お手軽に出来る二駒関係＋全幅2手での学習を開始。とりあえず、これで強くなってくれれば嬉しい…