2018-08-01から1ヶ月間の記事一覧
http://dwango.co.jp/pi/ns/2018/0827/index.html 昨日のニュースですが、電王トーナメントは終了して来年の選手権にドワンゴから賞金が出る様になるらしいですね。 という訳で、「ライブラリを使えばこんなに簡単&手抜きで賞金ゲットだぜ!」という問題提…
三目並べモードで方策勾配法+Q(λ)+Bootstrappingで正しく収束する様になりました。 という訳で、5五将棋モードに変更して学習用マシンに投入。 …と言うか、今朝から走らせてたんだけど、パラメータ更新後の後処理*1を忘れてて、さっき慌てて実装したのはこ…
https://teratail.com/questions/129845 OpenMPのomp_get_thread_num()関数とネストしての並列化絡みの仕様をちゃんと理解していなくて、正に上記URLの現象でバグってました。 デバッグにかれこれ6時間はかかったんじゃないかなぁ… まぁ、とりあえず動く様に…
先日書いたバグ疑惑ですが、結局色々調べた所「探査が足りてなくて正しく収束しない」という現象だと判断しました。 という訳で、5五将棋モードに設定変更して学習中。 …クソ重てぇw 一晩かかって300局しか対局出来ません。 どうも、勾配の再帰計算&初…
プランAですが、本命は「モンテカルロサンプリングを用いて行動価値関数の勾配を求める」方式なんですが、とりあえず妥協して厳密に勾配を求める方式に変更。 んで、Bootstrap部分は手を加えてないので正常動作。Q(λ)はまだバグ持ち… 現在は三目並べモードで…