GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

今日までの分を反映

  • シグモイド関数無しでの方策勾配法 実装は完了。現在テスト中。
  • レポート収集系の整理
  • パラメータのセーブ・ロードまわりのテスト ※問題無し
  • 方策勾配法の提案論文を探す&読む ※とりあえず発見。後で読む。
  • ソフトマックス方策の改善 ※現在実験中
  • ベイジアン方策勾配法の調査
  • "平均報酬の多様体に基づく方策勾配法"の調査 ※論文が英語なんで中断中
  • NumericVectorクラスの高速化(プロファイルとって、学習が高速化出来そうなら着手) ※遅くなったんで断念
  • 入玉勝ち宣言を実装
  • 合議にリトライ
  • LMRのパラメータを乱数で初期化して合議
  • 合議の票数を基準とした思考時間制御
  • USI周りをちゃんと実装する
  • ニューロで局面情報の圧縮&評価項目として使用
  • 二駒絶対位置関係をテスト・デバッグしてから評価項目に追加
  • Ponderもどき(相手の手番に現局面から学習する)
  • Historyの特徴に王手・非王手を入れてみる(まずは探索ノード数を同じにして、それで強くなるかテストしてみる)