GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

合議中心にスケジュールを再構築

 選手権まで残り201日。微妙に切羽詰まって来ました。

 という訳で、思い切ってスケジュール変更。学習は一旦保留します。 

  • シグモイド関数無しでの方策勾配法 実装は完了。現在テスト中。
  • レポート収集系の整理
  • パラメータのセーブ・ロードまわりのテスト ※問題無し
  • NumericVectorクラスの高速化(プロファイルとって、学習が高速化出来そうなら着手) ※遅くなったんで断念
  • 将棋用評価関数に進行度を採用する ※とりあえず実装完了
    • 計算方法・パラメータ調整方法等は要検討
  • 合議にリトライ
    • 複数評価関数での合議を基本とする
    • LMRのパラメータを乱数で初期化して合議
    • グローバル詰みテーブル*1の実装
    • 1クライアントは詰将棋ルーチン呼び出しも担当させる(ルートノードのみ)
    • 合議の票数・進行度を基準とした思考時間制御
  • USI周りをちゃんと実装する
  • Ponder
  • 入玉勝ち宣言を実装 ← 選手権までにここまでやりたい
  • Historyの特徴に王手・非王手を入れてみる(まずは探索ノード数を同じにして、それで強くなるかテストしてみる)
  • パラメータ・条件を色々変えてデータ採取
  • 方策勾配法+将棋で序盤〜終盤を学習させると上手く行かない件の原因究明
  • 全自動連続対局環境の構築
  • ABC探索実装
  • 温度も方策勾配法で学習してみる
  • GA+強化学習の方式検討
  • ソフトマックス方策の改善 ※将棋に使えるか要検討
  • 方策勾配法の提案論文を探す&読む ※とりあえず発見。後で読む。
  • ベイジアン方策勾配法の調査
  • "平均報酬の多様体に基づく方策勾配法"の調査 ※論文が英語なんで中断中
  • ニューロで局面情報の圧縮&評価項目として使用
  • 二駒絶対位置関係をテスト・デバッグしてから評価項目に追加