GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2015-04-24から1日間の記事一覧

上の続き

SR-PGLeafでは予測報酬(≒特定局面から先の勝率)が計算出来るから、それを利用する前提ならもうちょっとアルゴリズムを簡略化出来るかも。 評価関数パラメータを初期化する。 以下を無限に繰り返す。 自己対局で1局指す。 棋譜の各局面の予測勝率を計算する…

局面の予測勝率を基準とする、学習対象局面の選別

現在のGA将!!!!!!!!では、自己対局で生成した全ての局面を学習対象としています。 ただ、これは結構非効率的なやり方で、無駄な学習対象局面が存在する為に、深い探索と組み合わせた学習が困難です。 という訳で、初期局面から終局直前までの各局面を対象に…

最後のお願い

SR-PGLeafに割引率を導入するのは断念して、素のPGLeafを使って割引率0.995で学習開始。 来週水曜にはマシンを発送しないといけないんで、これが本当に最後のお願い。 …間に合うのか、学習。

自分用メモ

起きたらやる。 PG行動期待値法 ルートノードで仮の最善手ベースで枝刈りする 内部ノードでも枝刈りしまくる Futility Pruning null move pruning Move Count Based Pruning Late Move Reduction 勾配計算はとりあえず無しで 上記条件で実験用コード書いて、…