現在の状況
今のUSIの実装が適当すぎるので、ちゃんと実装する。具体的には、quitコマンドにすぐ反応しない事があるのと、Ponderに未対応なので、その辺の修正。多分、一から実装し直した方が楽なので、そうする予定。
シグモイド関数無しでの方策勾配法実装は完了。現在テスト中。- レポート収集系の整理
- パラメータのセーブ・ロードまわりのテスト
- 方策勾配法の提案論文を探す&読む
- ソフトマックス方策の改善
- ベイジアン方策勾配法の調査
- "平均報酬の多様体に基づく方策勾配法"の調査
- 【保留】NumericVectorクラスの高速化(プロファイルとって、学習が高速化出来そうなら着手)
- 入玉勝ち宣言を実装
- 合議にリトライ
- LMRのパラメータを乱数で初期化して合議
- 合議の票数を基準とした思考時間制御
- USI周りをちゃんと実装する
- ニューロで局面情報の圧縮&評価項目として使用
- 二駒絶対位置関係をテスト・デバッグしてから評価項目に追加
- Ponderもどき(相手の手番に現局面から学習する)
- Historyの特徴に王手・非王手を入れてみる(まずは探索ノード数を同じにして、それで強くなるかテストしてみる)