年末大掃除
という事で、完了した項目はザックリ消して仕切り直し。
来年こそは学習を成功させたいなぁ…
- 方策勾配法での評価関数パラメータの学習 ※実装は完了。現在テスト中。
- "変分ベイズ法による自然方策勾配の推定法"の調査
- 方策勾配法+将棋で序盤〜終盤を学習させると上手く行かない件の原因究明
- パラメータ・条件を色々変えてデータ採取
- Historyの特徴に王手・非王手を入れてみる(まずは探索ノード数を同じにして、それで強くなるかテストしてみる)
- 入玉勝ち宣言を実装 ← 選手権までにここまでやりたい
- 全自動連続対局環境の構築
- 温度も方策勾配法で学習してみる
- GA+強化学習の方式検討
- 方策勾配法の提案論文を
探す&読む ※とりあえず発見。後で読む。 - USI周りをちゃんと実装する
- Ponder
- ABC探索実装
- 二駒絶対位置関係をテスト・デバッグしてから評価項目に追加
- ニューロで局面情報の圧縮&評価項目として使用