GA将?開発日記~原点回帰~

ネタ勢最強を目指して絶賛開発中。

年末大掃除

 という事で、完了した項目はザックリ消して仕切り直し。

 来年こそは学習を成功させたいなぁ…

  • 方策勾配法での評価関数パラメータの学習 ※実装は完了。現在テスト中。
  • "変分ベイズ法による自然方策勾配の推定法"の調査
  • 方策勾配法+将棋で序盤〜終盤を学習させると上手く行かない件の原因究明
  • パラメータ・条件を色々変えてデータ採取
  • Historyの特徴に王手・非王手を入れてみる(まずは探索ノード数を同じにして、それで強くなるかテストしてみる)
  • 入玉勝ち宣言を実装 ← 選手権までにここまでやりたい
  • 全自動連続対局環境の構築
  • 温度も方策勾配法で学習してみる
  • GA+強化学習の方式検討
  • 方策勾配法の提案論文を探す&読む ※とりあえず発見。後で読む。
  • USI周りをちゃんと実装する
  • Ponder
  • ABC探索実装
  • 二駒絶対位置関係をテスト・デバッグしてから評価項目に追加
  • ニューロで局面情報の圧縮&評価項目として使用