2013-08-01から1ヶ月間の記事一覧
なんか、選択された手のπを眺めてると、かなり低めの手が選ばれてる傾向があります。 具体的に数値で言うと、一局通しての選ばれた手のπの平均が0.4前後。 …バグだろうなぁ。てか、バグであって欲しい。そうなら修正しようがあるから。
実験的に、PGLeafで終局まで棋譜の通りに指して学習するってのをやってます。棋譜の数はとりあえず10個で。 んで、大体バグが取れてきて勝った側の一致率が上昇傾向にあるのですが、何故か一致率のグラフが周期的に上下しています。 う〜ん、何が原因なんだ…
序盤はプロ棋士の棋譜を多少使いつつ、中盤以降は強化学習(自己対戦)で学習させる様にしてみました。 えぇ、Seleneさんのアピール文書にあるアルゴリズムそのままです、はい。西海枝さんに感謝。 現在学習中で、明日朝に連続対戦を仕込んで出社、返ってき…
http://pc.watch.impress.co.jp/docs/column/kaigai/20130828_612950.html http://pc.watch.impress.co.jp/docs/news/event/20130828_613010.html POWER・SPARCの次世代CPUに関する記事がPC Watchに載ってました。 コア数とかキャッシュ・メインメモリ容量、…
これでTDLeaf(λ)になりました。 んで、前に方策勾配法でやったのと同じ評価項目で、TDLeaf(λ)を使って学習中。 明日朝にはある程度収束していると思うので、そしたらsspとスパーリングです。
まだ適格度トレース無しのTDLeaf(0)ですが。 んで、とりあえずエラーにならずに動く様にはなったので、ちょっと気が早いけど学習用マシンに投入。 一晩走らせてみて、調子良さそうなら明日夜にでもfloodgateに投入します。
とりあえず勢いで。 さーて、当面の目標も決まったし、頑張って開発しますか。
http://headlines.yahoo.co.jp/hl?a=20130823-00000553-san-soci 「報道目的で、かつ反省していれば法を犯してもOK」って判断ですか。 ふ〜ん、へ〜、ほ〜、凄いなぁ(棒)
なんか、すっごい基本的なバグ(筋と段を取り違えてたり、入玉判定時に見る手番がおかしかったり)はありましたが、とりあえず完了とします。 んで、現在は学習用マシンで本命の学習を走らせつつ、開発用マシンでアサーション有効・ログ出力有りで並行してテ…
キングストン Kingston SSD 120GB 2.5インチ SATA3 MLC NAND採用 SSDNow V300 3年保証 SV300S37A/120G出版社/メーカー: キングストンテクノロジー発売日: 2016/09/30メディア: Personal Computersこの商品を含むブログ (3件) を見る 7mm厚で120GB以上の最安…
前(Ver.6)は自己対戦すると、1〜2%は入玉していました。特に、学習開始直後は入玉しやすい傾向にありました。 それが、今(Ver.7)は対局開始から2000局で入玉は一回も無し。 それも、探索の内部ノードで入玉する事すら無いので、以前とはかなり傾向が違…
評価項目は時間が足りなかったので、明日以降に持ち越し。 とりあえずちゃんと宣言勝ち出来るのは確認したので、評価関数の方もチャチャッとやっちゃいましょう。早いうちに。 それから、予算を考慮しつつ来年の選手権用マシン兼学習用マシンのプランを検討…
評価項目の追加 三駒相対位置関係 王将の移動可能範囲 入玉関連 入玉勝ち宣言の実装 局面の特殊な状態の認識 持ち駒優劣関係のある局面 盤面が同一で手番だけ異なる局面 詰将棋ルーチンの追加 まずは入玉関連の評価項目追加&入玉勝ち宣言の実装かな。今日す…
ノイズ付加探査は現在4x4リバーシでメタパラメータの調整中。 となると、それはひとまず置いといて、盆休みに出来なかった評価項目の追加に着手すべき? それとも、既存の評価関数・探索ルーチンのデバッグ? …一度TODOを整理してみますか。
http://ex.nicovideo.jp/denou/ 11/2〜4にトーナメントを行い、上位5チームが来年の電王戦出場権獲得可能、と。 将棋のルール的な部分はほぼ選手権通りだから、プログラムの大幅改良は不要ですね。 例えばトライルール採用とかだと、電王トーナメント用にコ…
4x4リバーシでノイズ付加探査無しの学習をやってますが、初期値次第で収束したりしなかったり。 早い時は10ステップ(1000局)で収束するのに、ワーストケースだと100ステップ経っても収束しない。 これはどっかバグってるか、温度とかのパラメータ調整をミ…
http://files.shareholder.com/downloads/INTC/2642138738x0x682881/96E59F6B-D0BB-414B-A7B2-9CDFF770A0FB/Copy_of_Aug_11_13_Recommended_Customer_Price_List.pdf 一時はPentiumブランドになるとかって噂もありましたが、結局Atomになるみたいですね。 ス…
1エージェントでザックリ動かした感じだと、修正前より収束が早くなってる感じです。 という訳で10エージェントで大まかな結果を出して、そっから分散系数を絞り込んで一晩走らせますか。
ノイズの更新をするタイミングがおかしかったです。 という訳で今から修正&データとり直し。寝るまでに9通りの結果、出せるかな?
新アルゴリズム*1のノイズ付加探査を実装&軽く動作確認も兼ねてテスト。 んで、結果です ↓(クリックで拡大) 4x4リバーシで、探索深さ3手で学習した評価関数と、完全読みプレイヤーを対局させた結果です。 学習は各設定(分散系数)で乱数のシードを変えつ…
上記の問題は「リバーシ用評価関数の精度不足」って結論になりました。 リバーシでは初手は4手あるのですが、どの手を指しても対称な形になります。 で、4手全ての価値を正しく評価するには、評価関数の精度が不足してるのではというのが現在の考えです。 つ…
アサーションに引っかからないので、配列の領域オーバーアクセスとかっていう単純なバグでは無さそう。 それと、対局数を増やしても探索深さ1の後手はNGだったので、収束が遅いって線も消えた。 となると、PGLeafエージェントで後手特有の処理をしている部分…
エージェント数1での完全読みプレイヤー相手の結果。 探索深さ1:先手のみOK 探索深さ2:先後とも大体OK(ただし、先手はやや不安定) 探索深さ3:先後ともOK 探索深さ4:先後ともOK 探索深さ5:先後とも大体OK(ただし、先手は深さ2より不安定) つまり…どういう…
酒飲みつつデバッグしてます。 んで、現時点で怪しい部分を怪しい順に。 PGLeafエージェント 評価関数 探索ルーチン エージェントのバグなら将棋にも影響があるでしょうから、ここのバグなら今後に期待出来ます。 評価関数・探索部分のバグだとガッカリです…
んで、探索深さを1,2,3...と変化させると、片側のプレイヤーだけ正しく収束するっていう現象が起きてます。先手だけだったり後手だけだったり。 ん〜、何なんでしょうね、これは?
4x4リバーシをPGLeafで学習させながら、完全読みプレイヤー相手の対局結果をログに出してみました。 んで、1エージェントの場合は先手・後手共に対局結果が最善(後手8石差勝ち)になるのですが1エージェントの場合でも、10エージェントや100エージェントの…
まずは状況の把握。それから対応。 んで、現在はパラメータの更新回数と更新量の関係のログを取得中。もうすぐ終わるので、終わったらすぐ分析。 対応方法ですが、自己対戦にある程度のランダムさを加えてやれば解決しそうな気がするんで、その方法であって…
多分二駒相対の評価を入れてからなんだけど、序盤から評価値が1000を越える*1事が多くなった気がします。 それと、棋力的にもsspに1割程度しか勝てなくなってたりとか、どっかおかしい感じ。まぁ、こっちは自己対戦の対局数が少なくて、まだ収束していないだ…
ちゃんとテストしてから学習用マシンに投入しました。 あと、評価項目の追加で忘れてたのがあったんでリスト更新。 評価項目の追加 駒の自由度の評価 王将の移動可能範囲の評価 入玉関連の評価 三駒相対位置関係の評価 詰将棋ルーチンの追加 …詰将棋ルーチン…
ここには書けない様なすっごい基本的なバグで2時間浪費してしまった… 駒の自由度、今日中に実装出来るかなぁ…