TODO
とりあえず選手権までのTODOリストです。 null move pruningのパラメータ調整 (Extended) Futility Pruningの実装・パラメータ調整 断念 相手が入玉勝ち宣言を実装していないケースへの対応 GA将 Ver.7のリバーシバージョンを実装&ソース公開 New! 現行のVe…
null move pruningのパラメータ調整 (Extended) Futility Pruningの実装・パラメータ調整 相手が入玉勝ち宣言を実装していないケースへの対応 最後の件ですが、今の実装だと相手が入玉勝ち宣言可能になると適当な手をノータイムで指す様になるはずです(未検…
基本方針は「強化学習による評価関数の精度向上を最優先」で。 んで、合議や並列探索はとりあえず無視。シングルスレッド動作で強くするのを目標とします。 選手権までのTODO 学習ルーチン(PGLeaf・ソフトマックス方策)のデバッグ エージェントと方策の連…
直近では11月24日に第6回UEC杯5五将棋大会がありますので、出来ればそれに参加したいです。 ただ、一昨日のGPW杯(5五将棋)を見る限りだと、何らかの改良をしないと上位には手も足も出ない感じなので、強化に成功したら参加の方向で検討中です。 あ、GPW…
明日・明後日は仕事で出来ないだろうから、今日中にやっとくべき事。 荷造り 強化学習の本を忘れずに 選手権・宿関連のメールを印刷&携帯に転送 PCの環境整備 ネットワーク関連の設定を変更しておく ログ・ソースのバックアップとかの準備 後12時間位あるの…
ルートノードで合法手が1手だけならノータイムで指す 進行度を基準とした思考時間制御 USIでscore mate対応 LMRの短縮しない条件を追加 Ponder…は無理かな?諦めた LMRで「敵陣で敵の利きの無いマスに駒を打つ手は短縮しない」って条件で、駒種を「大駒のみ…
ルートノードで合法手が1手だけならノータイムで指す 進行度を基準とした思考時間制御 USIでscore mate対応 Ponder…は無理かな?
という事で、完了した項目はザックリ消して仕切り直し。 来年こそは学習を成功させたいなぁ… 方策勾配法での評価関数パラメータの学習 ※実装は完了。現在テスト中。 "変分ベイズ法による自然方策勾配の推定法"の調査 http://ci.nii.ac.jp/naid/110003496679 …
思考時間が多少長くなったくらいじゃどうにもならない感じですし、Ponderは後回しにします。 という訳で、とりあえずは方策勾配法での学習にリトライしてみます。 シグモイド関数無しでの方策勾配法 実装は完了。現在テスト中。 レポート収集系の整理 パラメ…
シグモイド関数無しでの方策勾配法 実装は完了。現在テスト中。 レポート収集系の整理 パラメータのセーブ・ロードまわりのテスト ※問題無し NumericVectorクラスの高速化(プロファイルとって、学習が高速化出来そうなら着手) ※遅くなったんで断念 将棋用…
選手権まで残り201日。微妙に切羽詰まって来ました。 という訳で、思い切ってスケジュール変更。学習は一旦保留します。 シグモイド関数無しでの方策勾配法 実装は完了。現在テスト中。 レポート収集系の整理 パラメータのセーブ・ロードまわりのテスト ※問…
&優先度を色々変更。 シグモイド関数無しでの方策勾配法 実装は完了。現在テスト中。 レポート収集系の整理 パラメータのセーブ・ロードまわりのテスト ※問題無し NumericVectorクラスの高速化(プロファイルとって、学習が高速化出来そうなら着手) ※遅く…
シグモイド関数無しでの方策勾配法 実装は完了。現在テスト中。 レポート収集系の整理 パラメータのセーブ・ロードまわりのテスト ※問題無し パラメータ・条件を色々変えてデータ採取 全自動連続対局環境の構築 温度も方策勾配法で学習してみる ソフトマック…
シグモイド関数無しでの方策勾配法 実装は完了。現在テスト中。 レポート収集系の整理 パラメータのセーブ・ロードまわりのテスト ※問題無し 方策勾配法の提案論文を探す&読む ※とりあえず発見。後で読む。 ソフトマックス方策の改善 ※現在実験中 http://ib…
今のUSIの実装が適当すぎるので、ちゃんと実装する。具体的には、quitコマンドにすぐ反応しない事があるのと、Ponderに未対応なので、その辺の修正。多分、一から実装し直した方が楽なので、そうする予定。 シグモイド関数無しでの方策勾配法 実装は完了。現…
シグモイド関数無しでの方策勾配法 レポート収集系の整理 パラメータのセーブ・ロードまわりのテスト 方策勾配法の提案論文を探す&読む ソフトマックス方策の改善 http://ibisml.org/ibis2008/abst-poster.htm#A04 http://ci.nii.ac.jp/naid/110008004285 …
「自己対戦での学習を成功させる」ってのは当然として、それ以外で。 小宮さんの所に書いてあった、historyとLMRの処理 ABC探索 頓死チェック 頓死チェックだけならすぐ実装出来そうだけど、合法手が無くなるまで指す様にしたい*1ので、もうちょっとちゃんと…
まずは自己対戦での学習に集中するとして、その辺の環境整備とか。 自己対戦時に探索を深くするとなぜか弱くなる件の調査 全自動で他のエンジンと連続対戦して強さを計測する環境の整備 自己対戦での学習を成功させる ABC探索 相手番に対局中の局面から自己…
自己対戦での学習を成功させる(とりあえずTreeStrap) 複数評価関数での多数決合議 ABC探索 相手番に対局中の局面から自己対戦して学習する(Ponderもどき) 現実的には全部は無理でしょうから、この中から2つ出来たら万々歳ですね。 今回の選手権期間中に…
TreeStrapは一旦封印。選手権後にやります。 んで、選手権までにやる事。 LMRのパラメータ調整 futility pruning実装&パラメータ調整 並列化の効率上げる 選手権用マシンでfloodgate参戦 Ponderはもう時間が無いんで諦めました。下手なコトしてエンバグする…
探索の検証&ベンチマーク用のコード整備 Ponder実装 futility pruning実装&チューン デバッグ 学習関連は今からもうちょっとあがいてみますが、どうにも上手く行かなさそうな感じです。引き続き、探索でごまかして何とかする方向でやってみます。
二駒相対評価の特徴量を少しいじる(遠い駒同士の関係ほど特徴量小さく) 自己対戦の結果からのボナンザメソッド 定跡を実装 一つ目は、二駒相対評価の特徴量を1/距離にすると言うもの。遠い駒同士の関係はあんまり重視しなくていいはずなので、それを反映し…
シングルスレッド学習のコードをコピペしてちょこまかと修正したら完了。意外と楽でした。 とりあえずこれで一晩動かしてみて、問題無い様なら次に行きます。 History Heuristicでオーダリング。 静止探索。 もうちょっとまともな評価項目。 ベンチマーク用…
History Heuristicでオーダリング。 静止探索。 もうちょっとまともな評価項目。 ベンチマーク用のコード整備。 パラメータのセーブ・ロード。 情報収集の枠組みを作る。 方策内でのウィンドウ設定及びオーダリング。 必要ならHistory Heuristicの拡張。 千…
置換表は後回しにして、とりあえず評価項目の充実を急いだ方が良いかな? まぁ、ぼちぼちやっていきます。 History Heuristicでオーダリング。 静止探索。 もうちょっとまともな評価項目。 ベンチマーク用のコード整備。 パラメータのセーブ・ロード。 情報…
ssp同士を一手1秒で1000局対局させた棋譜があるので、その棋譜の局面から探索してNPSやら色々計測するコードを実装。 当面はこのコードを使って、必要な機能の実装と軽いチューニングをしていく予定。 んで、実装してて色々足りてない機能があったんで、その…
YssTreeでログを見ながら、動作を検証してみましたが、多分大丈夫。 んで、短期的な残項目。 History Heuristicでオーダリング。 静止探索。 もうちょっとまともな評価項目 ベンチマーク用のコード整備。 置換表。 評価項目を一通り揃える(三駒の関係以外)…
まずは短期的な事。 History Heuristicでオーダリング。 静止探索。 もうちょっとまともな評価項目 ベンチマーク用のコード整備。 置換表。 評価項目を一通り揃える(三駒の関係以外)。 んで、次回選手権までにしたい事。 予備実験。 UCTで序盤を指すと、ど…
予備実験。 UCTで序盤を指すと、どの程度の手数まで進めれるか調査。 探索を全幅2手+静止探索にしてVer.3のコードを動かしてみる。 一からコードを書き直す。 三目並べ・リバーシ・将棋を一つの強化学習エージェントで学習可能にする。 評価関数は差分計算…
色々考えた結果、合議制は後回しに。まずは単独の評価関数での精度を優先させます。 速度の目標は、前も書きましたが二駒の絶対位置関係まで実装した状態で1日100万局。三駒を実装したらもっと遅くなるでしょうけど、それでも10万は行きたいです。 それから…