GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2014-11-01から1ヶ月間の記事一覧

VAPSLeaf(仮称)の実装中

とりあえず、三目並べで学習して500局以内に収束する所までは完成。 んで、TODOはこんな感じ。 デバッグ メタパラメータ調整 本将棋・5五将棋用の調整(必要なら) メタパラメータは適当に設定しただけなんで、明日にでもちゃんと調整する予定。

VAPSLeaf(仮称)実装開始

「VAPSLeaf」はVAPS with Leafの略称で、PGLeafの時と同じ安直な命名です。 まぁでも、アルゴリズムの名称が無いとクラスを作る時に不便だし、当面はこの名前で行きます。 んで、VAPSは従来手法より(エピソード数ベースでの)収束が早いのが売りらしいんで…

これ欲しい…かも

http://blog.tsukumo.co.jp/used_nagoya/2014/11/298.html 30インチWQXGAのディスプレイが税込み¥49,800。 サブモニタが壊れかけなんで買い換えるって手もありますが、24インチの新品が1万円台ってのを考えると、ちょっとすぐには手が出ませんね。

あ…

多重反復深化を実装していない事に今気付いた。 まぁいいや、明日やろう、明日。

Stockfishの探索ルーチン

一通り実装しました。テストはまだですが。 んで、速度的には今までのαβ探索ルーチンよりは速くなってるんですが、まだまだ遅い感じです。 これが、パラメータ調整不足が原因なのか、評価関数の精度不足が原因なのかは不明。 多分、後者の可能性が高いのです…

まだ探索ルーチンの修正中

「可能な限りStockfishと同じルーチンにする」というのを目標にしていましたが、早速下方修正。 色々あって、まんま同じは無理っぽいです。 という訳で、適当に端折って実装中。 現在は、静止探索を追加してムーブオーダリングを実装する所まで。 土日に全幅…

今日は探索ルーチンの修正はお休み

昨日書いた方策の修正案を試してみたいので、Stockfish化は明日以降に回して、今日は方策&評価関数の修正をしてみます。 と言っても、修正箇所はそれほど多くないはずです。 とりあえず、個々のパラメータの累積更新量を記録する様にして、そのうえで累積更…

search()関数の実装、半分完了

あ、枝刈り関連は全く書いてないんで、半分は言い過ぎかも。 ま、とりあえず全幅探索をする所は書き終わりました。 後は静止探索と各種枝刈りか。今週中には終わるかな?

強化学習では方策が重要

もう何度目になるか分からないですが、「Softmax方策がコンピュータ将棋における強化学習の最適解」か迷っています。 Softmax方策では「評価値が高い手ほど高確率で選択する」というのが基本動作ですが、別に学習中の自己対戦で勝率を上げた所で、最終的な強…

探索ルーチンの改良中

Stockfishの最新版を読みつつ、適当に端折って実装。 現在、枝刈り用テーブルの初期化と反復深化の部分だけ完了。 今週末までにはsearch()関数とqsearch()関数を実装出来ないかな。枝刈りを省略してそれ以外の部分だけなら、何とかなる…か?

選手権までのプラン

2014年11月 探索のStockfish化(シングルスレッド) 2014年12月 並列探索 正月休み 探索のパラメータ調整(可能ならGAで自動化する) 2015年1月 VAPS 2015年2月 評価項目の追加 2015年3月 評価関数の非線形化 2015年4月 チューニング 以前書いてた、さくらの…

ブログのタイトル変更しました

色々あってタイトル変更。後半部分は時々変わるかもしれません。

高速化によるR向上

GA将!!!!!!!!の探索ルーチンはシングルスレッドなんですが、これをマルチスレッド化してどの程度強くなるかを予測してみました。 んで、シングルスレッドのままで「一手一秒のGA将!!!!!!!!」と「一手四秒のGA将!!!!!!!!」をそれぞれssp(一手一秒)と連続対…

選手権に向けてやりたい事

評価関数は現状のコードをベースに改良 基本は線形の評価関数 状況次第では非線形に拡張する 自己対戦からの強化学習でパラメータ調整 VAPS(Value and Policy Search)*1とαβ探索を組み合わせてみる 評価項目を追加 三駒関係 探索はStockfish化 並列探索 各…