GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2020-01-05から1日間の記事一覧

学習ルーチンの分散コンピューティング化を検討中

GA将?の学習ルーチンは、ミニバッチサイズ(1回のパラメータ更新に使用する、自己対局の棋譜の数)を大きくすると、学習が安定する傾向があります。 ただ、私のPC(Core i7 5960X)では、マシンパワーの関係上ミニバッチサイズは500~1000程度が限界です。 …

ログの可視化ツールを大幅アップデート

qiita.com 上記サイトを参考に、ログファイルの更新を監視してグラフ作成&Webサイトにアップロードする様にしてみました。(更新ごとだと10秒に1回とかになっちゃうんで、前回処理から一定時間以上は待つ作りになっています。) qiita.com それから、ログフ…

方策πのエントロピーにもとづく内発的報酬

が、もうちょっとで定式化出来そうな気がする。 動機 自己対局を通じた、コンピュータ将棋/コンピュータ5五将棋の評価関数の強化学習において、より良い報酬を設計したい。 大雑把な考え方 方策πのエントロピーが、行動選択の前後でどう変化したかをベース…