GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2016-10-01から1ヶ月間の記事一覧

PGLeafとアンサンブル学習を組み合わせた手法を実験開始

DQNを実装して5五将棋で学習させてみたんですが、TD誤差が一向に減らないという問題が有って、これは一旦保留。 んで、表題の手法のコード(前に書いた)を引っ張り出して来て、テスト&デバッグ中。 やる事はシンプルで、評価関数インスタンスを多数生成し…

定跡構築は一時中断&今後の方針を検討中

定跡ですが、ある程度の局面を登録出来たので実戦投入したんですが、かえって弱くなっちゃいました。 詳細はまだ未検証ですが、とりあえず一旦保留して、後日再検討します。 んで、基本に立ち返って強化学習での評価関数パラメータの学習を再開…しようと思っ…

定跡構築に着手

Entropy Regularizationは難易度高過ぎで断念しました。 んで、表題の通り定跡構築中。(5五将棋です。) 細かいバグは大体取れたみたいなんで、一週間位走らせる予定。これで、20万局面は登録出来るはずです。 +---+---+---+---+---+ | |v飛| |v金|v王| +--…