PGLeafとアンサンブル学習を組み合わせた手法を実験開始

開発日記

DQNを実装して5五将棋で学習させてみたんですが、TD誤差が一向に減らないという問題が有って、これは一旦保留。んで、表題の手法のコード（前に書いた）を引っ張り出して来て、テスト＆デバッグ中。やる事はシンプルで、評価関数インスタンスを多数生成し…

2016-10-15

定跡構築は一時中断＆今後の方針を検討中

開発日記

定跡ですが、ある程度の局面を登録出来たので実戦投入したんですが、かえって弱くなっちゃいました。詳細はまだ未検証ですが、とりあえず一旦保留して、後日再検討します。んで、基本に立ち返って強化学習での評価関数パラメータの学習を再開…しようと思っ…

2016-10-03

定跡構築に着手

開発日記

Entropy Regularizationは難易度高過ぎで断念しました。んで、表題の通り定跡構築中。（5五将棋です。）細かいバグは大体取れたみたいなんで、一週間位走らせる予定。これで、20万局面は登録出来るはずです。 +---+---+---+---+---+ | |v飛| |v金|v王| +--…

GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

2016-10-01から1ヶ月間の記事一覧

PGLeafとアンサンブル学習を組み合わせた手法を実験開始

定跡構築は一時中断＆今後の方針を検討中

定跡構築に着手