GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2016-03-01から1ヶ月間の記事一覧

あ、忘れてた

アピール文書書かないと失格になってしまう…

AlphaGoの学習アルゴリズムの解説記事

http://itpro.nikkeibp.co.jp/atcl/column/14/090100053/021000126/?ST=bigdata&P=2 (ITProへのユーザ登録が必要です) 「AlphaGoは自己対局からの強化学習で強くなった」と理解していたのですが、微妙に違ったみたいです。 私が考えていたのは(&今GA将で…

AlphaGo 4勝1敗でしたか

チョロっとニュースを眺めただけなんですが、劣勢の局面から挽回したりなんだかんだあって、見応えがあった対局みたいですね(私は囲碁はサッパリ分かりませんが)。 んで、困った事が一つ。 今後「強化学習でコンピュータ将棋の評価関数パラメータの調整を…

悩ましい二択

評価関数パラメータに関しては、現在学習用マシンで走らせている最中です。 これが収束するのはおそらく4月に入ってからなので、それまでの間に何か別の事をしようかな、と検討中。 んで、やりたい事は「探索パラメータの学習」と決まっているのですが、選択…

全幅3手+静止探索で学習開始

学習用マシンでは、全幅3手+静止探索1段目10手だと24時間あたり2万〜2万5千局ペースみたいです。 全幅5手+静止探索にすると更に遅くなるんで、全幅3手が実用上の限界だと判断しました。 んで、選手権まで約2ヶ月あるんで、ずっと学習させっぱなしで何とか1…

PP絶対を実装&自己対局の条件を変更

まず、評価関数にPP絶対を実装しました。対局時はKPPのテーブルに値を足し込んで使うので、NPSの低下は無いはずです。 これで、ちょっとでも汎化能力が向上すれば嬉しいな、と。 それから、全幅1手+静止探索10手での学習では強くなってくれなかったので、全…

学習開始なのです

三駒関係の評価関数に学習に必要な関数を追加して、諸々のパラメータ調整もほぼ完了。 という訳で、今夜から本番の学習に着手します。 …てゆーか、これで強くなってくれないと詰む。選手権で大恥かくの確定。