GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2017-07-01から1ヶ月間の記事一覧

対ssp(5五将棋モード)のベースライン

試しに、駒割のみ適当に初期化して、後の三駒関係+αはごく小さな乱数で初期化した評価関数を使って、sspと対局させてみました。 んで、驚愕の事実!!! 2勝21敗で勝率8.7%でした!!! 全く勝てないかと予想してたんですが、駒割のみでも意外と行けるもん…

EB-PGLeafの微調整中

パラメータの更新回数を、本譜の手のPV Leafでのみ更新する様に変更。 ミニバッチサイズ*1を100→1000に変更。 Bonanza 6.0のFV_SCALEに相当する値*2を微調整。 王将の移動可能範囲評価で特徴量計算式を修正。 んで、現在5時間ほど学習させて、駒割はほぼ収束…

前の論文の手法は断念(半分だけ)

http://d.hatena.ne.jp/Gasyou/20170701/1498906118 上記論文の手法ですが、5五将棋で使用するのは難しそうです。 と言うのは、論文中でρとρ'という値を計算する必要があるのですが、現状のGA将の評価関数ではどちらも0.0になってしまいます*1。多倍長浮動小…

さて、今後のプランはどうしようか

http://d.hatena.ne.jp/Gasyou/20170701/1498906118 先日書いた論文ですが、アルゴリズムの解説まで目を通して、残るは理論的な部分と実験結果のみ。ボチボチ読んで行きますが、とりあえずGA将に組み込む為の設計は可能な段階だと思います。 んで、以前書い…

Count-Based Exploration in Feature Space for Reinforcement Learning

https://arxiv.org/pdf/1706.08090.pdf 強化学習と関数近似を組み合わせた場合に、 φ-pseudocountと呼ぶ指標を元に探査を行う手法らしい。 大きな状態行動空間でも効率的に学習可能とあるので、コンピュータ将棋への応用も期待出来そう。