GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2010-09-28から1日間の記事一覧

ソフトマックス方策を用いた方策勾配法の計算式その2〜温度も学習しよう〜

方策πの式は下記の通り(再掲)。 Qは価値関数で、sの手番が優位な局面ほど高い値となる。 んで、温度Tで偏微分すると下記の通り。 // TeXの式が長すぎて画像表示されなくなったので、続きは別に。

僕の考えた完璧な素数計算プログラム

http://d.hatena.ne.jp/mclh46/20100927/1285605192 のタイトルを見てふと思い出したので。 学生時代の友人が「10以下の素数を出力するプログラムを作成せよ」という問題に対して「これなら完璧。絶対にバグがないぜ!」って言って書いたもの。 printf( "1 2…

と金の価値は

昨日書き忘れてたんですが、三目並べで先後両方共学習するバージョン、ちゃんと収束する様になりました。 原因はソフトマックス方策の温度設定で、1.0だとNG(先手勝ちになる)で0.2だとOKでした。 んで、昨日の夜から学習用マシンで将棋の方の学習をしてい…

やっぱり間違ってた

まぁ、コード書く前に気付いたんでダメージ少ないですが。

温度パラメータの微分

計算してみたらやったら複雑になったんだけど、本当に合ってるんだろうか?なんか心配。