GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2015-04-01から1ヶ月間の記事一覧

選手権用PCを発送して

今からコード書いても動かせる環境が無いんで、5月1日まではコードを書かない事にしました。 たまには他の事を考えて、頭をリフレッシュしてみます。(と言いつつ、頭の中では来年選手権バージョンの構想を練る事になると思いますが。)

選手権バージョンはFix

「最後のお願い」は結局ダメだったんで、floodgateに投入していたパラメータで行く事にしました。 んで、選手権用マシンに合わせてビルドしなおして、20:00の回からテストも兼ねてfloodgateに投入。 明日夜にはマシンを梱包するんで、一晩だけ対局させてみま…

上の続き

SR-PGLeafでは予測報酬(≒特定局面から先の勝率)が計算出来るから、それを利用する前提ならもうちょっとアルゴリズムを簡略化出来るかも。 評価関数パラメータを初期化する。 以下を無限に繰り返す。 自己対局で1局指す。 棋譜の各局面の予測勝率を計算する…

局面の予測勝率を基準とする、学習対象局面の選別

現在のGA将!!!!!!!!では、自己対局で生成した全ての局面を学習対象としています。 ただ、これは結構非効率的なやり方で、無駄な学習対象局面が存在する為に、深い探索と組み合わせた学習が困難です。 という訳で、初期局面から終局直前までの各局面を対象に…

最後のお願い

SR-PGLeafに割引率を導入するのは断念して、素のPGLeafを使って割引率0.995で学習開始。 来週水曜にはマシンを発送しないといけないんで、これが本当に最後のお願い。 …間に合うのか、学習。

自分用メモ

起きたらやる。 PG行動期待値法 ルートノードで仮の最善手ベースで枝刈りする 内部ノードでも枝刈りしまくる Futility Pruning null move pruning Move Count Based Pruning Late Move Reduction 勾配計算はとりあえず無しで 上記条件で実験用コード書いて、…

ThinkPadバッテリー回収の件

http://www.lenovo.com/batteryprogram2014/ http://pc.watch.impress.co.jp/docs/news/20150422_698990.html 私のX220ちゃんも該当でした。 とりあえず、ThinkPadオーナーの皆様は安全の為に確認をおすすめします。

今頃になって学習ルーチンの改良開始

現在は割引率が1.0固定なんですが、これを調整してみようかと検討中。 例えば0.99に設定すると、1手指すごとに報酬が1%減少するんで「勝つ時は短手数で勝つのが良い」「負ける時は粘って手数を伸ばすのが良い」と学習してくれるはずです。 floodgateの対局…

悪あがき

現在floodgateに投入中のパラメータ(全幅2手+静止探索で学習したもの)を引き継いで、全幅3手+静止探索で自己対局・強化学習を開始。 あ、全幅と言いつつLMRとFutility Pruningはしていますが。 で、強くなったらそれを採用。ダメでもfloodgateバージョン…

上の続き

酔っ払ってるんで細かい間違いはあるかと思いますが、とりあえずメモ。 今仮に、平手初期局面の先手の勝率が0.5とします。 で、対局すると先手が勝って勝率1.0になりました。 そうすると、初期局面では1bitあった「勝敗に関する情報量」が終局図では0bitにな…

つー訳で

酒呑んでます(爆) いやほら、「アイデアを出す=既存の枠組みを一度壊して再構築する」って事ですから、酔っ払って理性が半分飛んだ状態の方がアイデア出やすいんですよ、私の場合。 …アル中の言い訳みたいですね。

方策の改善案を思い付いた…かも

まだ具体的なアルゴリズムにまで落とし込めて無いんですが、なんとなくモヤッとした形は見えてきました。 大雑把に書くと、従来は「評価値の高い手を高確率で選択」だったのを、「評価値+得られる情報量(等)の高い手を高確率で選択」ってすれば上手く行く…

Core i7 5960Xマシンで投入

したものの、思考時間の設定変更を忘れててTime Up連発しています。すいません。 という訳で、7:00の回から設定変更したもので投入。 今日中にはレーティング付くかな?

新評価関数の採用/非採用

を、そろそろ決めるべき時期ですね。選手権までの残り日数を考えると。 一応、5五将棋で対sspの勝率が80%位までは上昇したのを確認しました。 んで、現在は本将棋の方で学習中。 ただ、学習速度(時間あたりの対局数)がかなり遅くなりそうなので、選手権に…

三割速い

まず、この前書いた正則化がらみのバグ疑惑、バグではありませんでした。 ちょっとした出来心で駒割関係の処理(と言うか設定)を変更したんですが、それが原因だったみたいです。 んで、今日の本題。パラメータ更新時の処理を見直しました。 修正前は評価関…

L2正則化、バグってる?

正則化係数を0にしても正則化されている様な挙動です。 これは、正則化実装時にどっかエンバグしたか?

Factorization Machine使用の評価関数

ようやくバグがとれて、ある程度ちゃんと動く様になってきました。 ただ、評価値全体に占めるFM項の割合が高めになっちゃう現象が起きているので、L2正則化を実装して正則化係数の調整中。 今の所、FM項以外は1E-4、FM項は3E-3位がちょうど良さそうです。 今…

結局

値渡しの動作をちゃんと考慮していなかったのがバグの原因でした。 と言うか、ログ出力がバグっていて、パラメータ修正周りはバグが見つからなかった、ってのが正確ですね。 …はぁ、疲れたのでボチボチ寝ます。

デバッグ途中経過

とりあえずFM項のパラメータを何も考えずに出力してみました。 んで、「パラメータAとBで、それぞれに別の名前が割り振ってある。ただし、AとBのアドレスは同じ。」という訳分かんない現象が発生。 アドレスが同じなら名前も同じになるはずだし、ログ出力コ…

Factorization Machine使用の評価関数が

バグってる疑惑が出て来ました。 FMの学習が進むにつれ、予測報酬の誤差が徐々に大きくなっていきます。 となると、FM項のパラメータ修正がおかしいって可能性が一番高いので、まずはその辺からテストしてみます。 …てか、選手権の1ヶ月前に評価関数がバグっ…

新評価関数

まだ対局テストはしていませんが、途中経過を見る限りではそこそこちゃんと学習出来てる様です。 んで、今週末辺りまで新評価関数の修正をして、その後非線形の評価関数の実装に着手しようかと検討中。 http://d.hatena.ne.jp/Gasyou/20140507/1399441835 ↑…