合議中心にスケジュールを再構築
選手権まで残り201日。微妙に切羽詰まって来ました。
という訳で、思い切ってスケジュール変更。学習は一旦保留します。
シグモイド関数無しでの方策勾配法実装は完了。現在テスト中。レポート収集系の整理パラメータのセーブ・ロードまわりのテスト※問題無しNumericVectorクラスの高速化(プロファイルとって、学習が高速化出来そうなら着手)※遅くなったんで断念将棋用評価関数に進行度を採用する※とりあえず実装完了計算方法・パラメータ調整方法等は要検討
- 合議にリトライ
- USI周りをちゃんと実装する
- Ponder
- 入玉勝ち宣言を実装 ← 選手権までにここまでやりたい
- Historyの特徴に王手・非王手を入れてみる(まずは探索ノード数を同じにして、それで強くなるかテストしてみる)
- パラメータ・条件を色々変えてデータ採取
- 方策勾配法+将棋で序盤〜終盤を学習させると上手く行かない件の原因究明
- 全自動連続対局環境の構築
- ABC探索実装
- 温度も方策勾配法で学習してみる
- GA+強化学習の方式検討
- ソフトマックス方策の改善 ※将棋に使えるか要検討
- 方策勾配法の提案論文を
探す&読む ※とりあえず発見。後で読む。 - ベイジアン方策勾配法の調査
- "平均報酬の多様体に基づく方策勾配法"の調査 ※論文が英語なんで中断中
- ニューロで局面情報の圧縮&評価項目として使用
- 二駒絶対位置関係をテスト・デバッグしてから評価項目に追加