2016-10-01から1ヶ月間の記事一覧
DQNを実装して5五将棋で学習させてみたんですが、TD誤差が一向に減らないという問題が有って、これは一旦保留。 んで、表題の手法のコード(前に書いた)を引っ張り出して来て、テスト&デバッグ中。 やる事はシンプルで、評価関数インスタンスを多数生成し…
定跡ですが、ある程度の局面を登録出来たので実戦投入したんですが、かえって弱くなっちゃいました。 詳細はまだ未検証ですが、とりあえず一旦保留して、後日再検討します。 んで、基本に立ち返って強化学習での評価関数パラメータの学習を再開…しようと思っ…
Entropy Regularizationは難易度高過ぎで断念しました。 んで、表題の通り定跡構築中。(5五将棋です。) 細かいバグは大体取れたみたいなんで、一週間位走らせる予定。これで、20万局面は登録出来るはずです。 +---+---+---+---+---+ | |v飛| |v金|v王| +--…