肝心なの忘れてたんで追加
&優先度を色々変更。
シグモイド関数無しでの方策勾配法実装は完了。現在テスト中。レポート収集系の整理パラメータのセーブ・ロードまわりのテスト※問題無しNumericVectorクラスの高速化(プロファイルとって、学習が高速化出来そうなら着手)※遅くなったんで断念- パラメータ・条件を色々変えてデータ採取
- 方策勾配法+将棋で序盤〜終盤を学習させると上手く行かない件の原因究明
- 将棋用評価関数に進行度を採用する
- 計算方法・パラメータ調整方法等は要検討
- 全自動連続対局環境の構築
- 入玉勝ち宣言を実装
- 合議にリトライ
- LMRのパラメータを乱数で初期化して合議
- 合議の票数を基準とした思考時間制御
- USI周りをちゃんと実装する
- Historyの特徴に王手・非王手を入れてみる(まずは探索ノード数を同じにして、それで強くなるかテストしてみる)
- ABC探索実装
- Ponderもどき(相手の手番に現局面から学習する)
- 温度も方策勾配法で学習してみる
- GA+強化学習の方式検討
- ソフトマックス方策の改善 ※将棋に使えるか要検討
- 方策勾配法の提案論文を
探す&読む ※とりあえず発見。後で読む。 - ベイジアン方策勾配法の調査
- "平均報酬の多様体に基づく方策勾配法"の調査 ※論文が英語なんで中断中
- ニューロで局面情報の圧縮&評価項目として使用
- 二駒絶対位置関係をテスト・デバッグしてから評価項目に追加