今日までの分を反映
シグモイド関数無しでの方策勾配法実装は完了。現在テスト中。レポート収集系の整理パラメータのセーブ・ロードまわりのテスト※問題無し- 方策勾配法の提案論文を
探す&読む ※とりあえず発見。後で読む。 - ソフトマックス方策の改善 ※現在実験中
- ベイジアン方策勾配法の調査
- "平均報酬の多様体に基づく方策勾配法"の調査 ※論文が英語なんで中断中
NumericVectorクラスの高速化(プロファイルとって、学習が高速化出来そうなら着手)※遅くなったんで断念- 入玉勝ち宣言を実装
- 合議にリトライ
- LMRのパラメータを乱数で初期化して合議
- 合議の票数を基準とした思考時間制御
- USI周りをちゃんと実装する
- ニューロで局面情報の圧縮&評価項目として使用
- 二駒絶対位置関係をテスト・デバッグしてから評価項目に追加
- Ponderもどき(相手の手番に現局面から学習する)
- Historyの特徴に王手・非王手を入れてみる(まずは探索ノード数を同じにして、それで強くなるかテストしてみる)