GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2018-12-01から1ヶ月間の記事一覧

Optimizerの設定、間違ってた

gasyou.hatenablog.jp 昨日はRMSPropと書きましたが、設定を見直したらRMSProp+慣性項になっていました。 …まぁ、強くなってるから良いか。今の学習が頭打ちになったら、RMSPropのみに設定変更して、も一度学習しよう。 ちなみに現在の棋力ですが、164万局…

PGLeaf Dreiの現在の構成

色々やって原型とどめ無くなってきたので、一旦整理。 勾配計算に用いるのはPGLeaf+モンテカルロ法 PGLeaf項はGPWの論文そのまま モンテカルロ項は評価値をシグモイド関数に通して予測勝率に変換し、交差エントロピーを最小化する Softmax方策+αβ探索+線…

そう言えばちゃんと書いてなかったけど、レベルアップ判定のお話

現在のGA将は自己対局500回を1エポックとして、10エポックごとにレベルアップ判定をしています。 レベルアップ判定は、現在の評価関数と「過去8代のエース評価関数」を相手に各50局、先後入れ替えて計400局実施し、勝率が55%超えたらレベルアップ、45%切っ…

Noisy Networkを応用してみたら意外と良い感じになってきた

その論文は読んでないですが概要だけ見ると https://t.co/xgorf3i1Gd https://t.co/JrAKUakySh でやってることと同じように思いました— mooopan (@mooopan) 2018年12月17日 Twitterで@mooopan氏に教えてもらった論文を参考にして、線形の評価関数にノイズを…

なんとなく、私がやりたいのは最終的にベイズ方策勾配法に落ち着く様な気がしてきた

http://papers.nips.cc/paper/2993-bayesian-policy-gradient-algorithms.pdf ただ、論文読んでも理論もアルゴリズムもサッパリ分からんw

「確率的パラメータを持つ方策関数に対する方策勾配法」読んだまとめ

ci.nii.ac.jp 概要 オープンアクセス不可の論文なんで、気になった所だけ書こうと思います。 通常の方策勾配法では、パラメータは「確定的な」ベクトルである。これを、ハイパーパラメータ*1から生成される「確率的な」ベクトルに拡張する。 つまり、の値は…

PGLeaf Drei全面的に書き直す事にした

現状 Policy Gradient Methods for Reinforcement Learning with Function Approximation まず、上記論文の関数近似器の導入は断念しました。何をどういじっても、素のPGLeaf以上の性能にはならなかったので。 やった事は大体こんな感じ。 論文の手法をその…

PGLeaf Drei Phase1完成していなかった

え~、PGLeaf Dreiですが、三目並べモードではかなり良い感じだったんですが、5五将棋モードではてんでダメでした _| ̄|○ 学習開始時*1からのレーティング上昇量が4300とかになってウハウハだったんですが、sspと対局させると勝率が3割前後。 という訳で、…