GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

2014-11-01から1ヶ月間の記事一覧

VAPSLeaf（仮称）の実装中

開発日記

とりあえず、三目並べで学習して500局以内に収束する所までは完成。んで、TODOはこんな感じ。デバッグメタパラメータ調整本将棋・5五将棋用の調整（必要なら）メタパラメータは適当に設定しただけなんで、明日にでもちゃんと調整する予定。

VAPSLeaf（仮称）実装開始

開発日記

「VAPSLeaf」はVAPS with Leafの略称で、PGLeafの時と同じ安直な命名です。まぁでも、アルゴリズムの名称が無いとクラスを作る時に不便だし、当面はこの名前で行きます。んで、VAPSは従来手法より（エピソード数ベースでの）収束が早いのが売りらしいんで…

これ欲しい…かも

コンピュータ関連

http://blog.tsukumo.co.jp/used_nagoya/2014/11/298.html 30インチWQXGAのディスプレイが税込み￥49,800。サブモニタが壊れかけなんで買い換えるって手もありますが、24インチの新品が1万円台ってのを考えると、ちょっとすぐには手が出ませんね。

あ…

開発日記

多重反復深化を実装していない事に今気付いた。まぁいいや、明日やろう、明日。

Stockfishの探索ルーチン

開発日記

一通り実装しました。テストはまだですが。んで、速度的には今までのαβ探索ルーチンよりは速くなってるんですが、まだまだ遅い感じです。これが、パラメータ調整不足が原因なのか、評価関数の精度不足が原因なのかは不明。多分、後者の可能性が高いのです…

まだ探索ルーチンの修正中

開発日記

「可能な限りStockfishと同じルーチンにする」というのを目標にしていましたが、早速下方修正。色々あって、まんま同じは無理っぽいです。という訳で、適当に端折って実装中。現在は、静止探索を追加してムーブオーダリングを実装する所まで。土日に全幅…

今日は探索ルーチンの修正はお休み

開発日記

昨日書いた方策の修正案を試してみたいので、Stockfish化は明日以降に回して、今日は方策＆評価関数の修正をしてみます。と言っても、修正箇所はそれほど多くないはずです。とりあえず、個々のパラメータの累積更新量を記録する様にして、そのうえで累積更…

search()関数の実装、半分完了

開発日記

あ、枝刈り関連は全く書いてないんで、半分は言い過ぎかも。ま、とりあえず全幅探索をする所は書き終わりました。後は静止探索と各種枝刈りか。今週中には終わるかな？

強化学習では方策が重要

開発日記

もう何度目になるか分からないですが、「Softmax方策がコンピュータ将棋における強化学習の最適解」か迷っています。 Softmax方策では「評価値が高い手ほど高確率で選択する」というのが基本動作ですが、別に学習中の自己対戦で勝率を上げた所で、最終的な強…

探索ルーチンの改良中

開発日記

Stockfishの最新版を読みつつ、適当に端折って実装。現在、枝刈り用テーブルの初期化と反復深化の部分だけ完了。今週末までにはsearch()関数とqsearch()関数を実装出来ないかな。枝刈りを省略してそれ以外の部分だけなら、何とかなる…か？

選手権までのプラン

開発日記 TODO

2014年11月探索のStockfish化（シングルスレッド） 2014年12月並列探索正月休み探索のパラメータ調整（可能ならGAで自動化する） 2015年1月 VAPS 2015年2月評価項目の追加 2015年3月評価関数の非線形化 2015年4月チューニング以前書いてた、さくらの…

ブログのタイトル変更しました

雑記

色々あってタイトル変更。後半部分は時々変わるかもしれません。

高速化によるR向上

開発日記

GA将!!!!!!!!の探索ルーチンはシングルスレッドなんですが、これをマルチスレッド化してどの程度強くなるかを予測してみました。んで、シングルスレッドのままで「一手一秒のGA将!!!!!!!!」と「一手四秒のGA将!!!!!!!!」をそれぞれssp（一手一秒）と連続対…

選手権に向けてやりたい事

開発日記 TODO

評価関数は現状のコードをベースに改良基本は線形の評価関数状況次第では非線形に拡張する自己対戦からの強化学習でパラメータ調整 VAPS（Value and Policy Search）*1とαβ探索を組み合わせてみる評価項目を追加三駒関係探索はStockfish化並列探索各…