GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

2016-03-01から1ヶ月間の記事一覧

あ、忘れてた

コンピュータ将棋

アピール文書書かないと失格になってしまう…

AlphaGoの学習アルゴリズムの解説記事

開発日記

http://itpro.nikkeibp.co.jp/atcl/column/14/090100053/021000126/?ST=bigdata&P=2 （ITProへのユーザ登録が必要です）「AlphaGoは自己対局からの強化学習で強くなった」と理解していたのですが、微妙に違ったみたいです。私が考えていたのは（＆今GA将で…

AlphaGo 4勝1敗でしたか

雑記

チョロっとニュースを眺めただけなんですが、劣勢の局面から挽回したりなんだかんだあって、見応えがあった対局みたいですね（私は囲碁はサッパリ分かりませんが）。んで、困った事が一つ。今後「強化学習でコンピュータ将棋の評価関数パラメータの調整を…

悩ましい二択

開発日記

評価関数パラメータに関しては、現在学習用マシンで走らせている最中です。これが収束するのはおそらく4月に入ってからなので、それまでの間に何か別の事をしようかな、と検討中。んで、やりたい事は「探索パラメータの学習」と決まっているのですが、選択…

全幅3手＋静止探索で学習開始

開発日記

学習用マシンでは、全幅3手＋静止探索1段目10手だと24時間あたり2万〜2万5千局ペースみたいです。全幅5手＋静止探索にすると更に遅くなるんで、全幅3手が実用上の限界だと判断しました。んで、選手権まで約2ヶ月あるんで、ずっと学習させっぱなしで何とか1…

PP絶対を実装＆自己対局の条件を変更

開発日記

まず、評価関数にPP絶対を実装しました。対局時はKPPのテーブルに値を足し込んで使うので、NPSの低下は無いはずです。これで、ちょっとでも汎化能力が向上すれば嬉しいな、と。それから、全幅1手＋静止探索10手での学習では強くなってくれなかったので、全…

学習開始なのです

開発日記

三駒関係の評価関数に学習に必要な関数を追加して、諸々のパラメータ調整もほぼ完了。という訳で、今夜から本番の学習に着手します。 …てゆーか、これで強くなってくれないと詰む。選手権で大恥かくの確定。