GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

いったん仕切り直し

  • リバーシでの予備実験
    • TDLeaf(λ)実装。
    • メタ強化学習で、状態を見て行動選択する様に変更。
    • εグリーディーとソフトマックス手法の比較。
    • TDLeaf(λ)とTD(λ)の比較。 ← 9月中にはこの辺まで
  • 将棋関連
    • TDLeaf(λ)エージェントを再実装。
      • 方策をエージェントから独立させる。
      • メタ強化学習対応。
    • 学習中の各種統計情報の収集・表示ルーチン実装。 ← 10月中にこの辺まで行ける…のか?
    • 対局部分の並列化。
    • 評価関数でのstd::mapの使用をやめて、自前のハッシュに変更。
    • ハッシュ表の再実装。
    • MTD(f)再実装。静止探索部分でもハッシュを使用する。
    • 他のソフトとの連続対戦(勝率での検証用)。
    • 将棋のルールの細かい部分の実装。
      • 千日手・連続王手の千日手の検出。
      • 入玉宣言の実装。
      • 詰みとステイルメイトの区別。
      • 打ち歩詰めと打ち歩ステイルメイトの検出。
    • 探索に頓死チェックを追加。(※必要に応じて)

対局数をもうちょっと増やしたくて、色々高速化の案を考えてますが、どの程度速くなるかなぁ。

たしか以前のバージョンでは一晩で7000局位でしたが、ソフトの高速化&CPU変更でどの程度になるのか。

方策をεグリーディーからソフトマックスに変更した場合に、多少探索ノード数が増える事を考えると、一晩10万局行ければ御の字ですね。

とすると4ヶ月で1200万局ですか。対局数足りるのかな?