GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2014-05-01から1ヶ月間の記事一覧

課題局面、見つかった

http://d.hatena.ne.jp/Gasyou/20140507/1399441835 で書いた局面です。 この後3七桂成と進むんですが、それがちょっと悪かったんじゃないかな、と。 とりあえず評価関数の改良は後回しですが、いずれちゃんと指せる様になるか検証してみます。

一つ↑、対処方法が間違ってるかも。

ムーブオーダリングをHistory Heuristic使う様にしたら、イテレーションが5〜6回でPV長が10前まで行きました*1。 ただ、これって根本的な解決にはなってないですね。 遷移確率でオーダリングしてmpnが大きくなるという事は、遷移確率の精度が低いって事で、…

イテレーション回らない疑惑

疑惑っつーか事実なんですが、原因が分かった…かも。 えー、ムーブオーダリングが適当すぎて、mpn*1が3〜4になってました。 という訳で、遷移確率でオーダリングするんじゃなくて、History Heuristicでオーダリングに修正してみます。 5五将棋でイテレーショ…

大域的収束性を持つ方策探索法

「e射影に基づく方策探索法」 https://kaigi.org/jsai/webprogram/2014/pdf/781.pdf これで「後で読む」が4つになっちゃいました… どっかで時間作って読まないと。

イテレーション回んね〜

Softmax実現確率探索を実装&テスト中です。 とりあえず5五将棋でザクッと学習させて、sspと連続対局。 んで、タイトルの通り。実現確率を0.1ずつ減らしていくと、イテレーションが3回でPVの終端までの手数が5〜6手になります*1。 という訳で、リダクション…

Softmax実現確率探索に特徴を追加

SEE(交換値?)を特徴として追加しました。 一応SEEの計算にバグが無いかはチェックしてみたので、多分ちゃんと動くはず。 んでもって、これでどこまで性能が改善するか、ですね。

MCTSのシミュレーション方策の学習

「Improvements to MCTS Simulation Policies in Go」 https://www.wpi.edu/Pubs/E-project/Available/E-project-042914-175427/unrestricted/MCTS_Simulation_Policies_in_Go.pdf

さて

今日からはSoftmax実現確率探索の遷移確率学習を始めるわけですが、当たればR+500というデカい博打です。 学習則がやや複雑なのでエンバグしないか心配ですが、まぁ何とかしましょう。 目標としては土日のうちに学習ルーチンを実装し、来週いっぱいかけて学…

久々にvs ssp(5五将棋モード)

目標探査率を0.1〜0.5にした上で、学習則に温度の逆数の項を追加したバージョン。学習時の探索深さは2+6、対局数は36万。 んで、結果。317-?-94で勝率77.1%、95%信頼区間は72.8〜81.1。 取りあえずこの評価関数パラメータを使い、探索パラメータだけ学習さ…

Softmax実現確率探索を実装中

Softmax方策と探索ルーチンで共通のコードが必要なのに今更気づいて(おい)、共通部分の切り出しとかやりました。 んで、肝心の探索ルーチンですが、まだ一部未実装。具体的には反復深化する所とか。 という訳で、内部で探索する部分はあるけど、USIの送受…

GA将!!!!!!!! 開発開始

今日から本格的に開始です。 んで、まずはSoftmax実現確率探索の探索ルーチンから実装中。 明日には探索部分を完了して、その後遷移確率の学習部分に着手予定。 まずは5五将棋で探索用パラメータだけ学習(評価関数パラメータは以前のを流用して、固定)させ…

GA将 Ver.8開発開始

取りあえず新しいVC++プロジェクトを作って、Ver.7から流用するソースを全部ブチ込んでコンパイル。 で、実行。 …エラーですよ、いきなり。 えー、スタックサイズを指定していなくて、ログ出力関数内でスタックサイズオーバーして落ちました。このデバッグに…

評価値計算にシグモイド関数を用いる、非線形評価関数の実装

えー、上で書いた「もう一つの課題局面」から…なんですが、どの対局だったか忘れちゃったんで局面図無しです。 言い訳すると、一次・二次合わせて16戦してるんで、ログが埋もれても仕方ない…訳は無いんですが。あと、ひょっとしたら練習対局だった可能性もあ…

プラン再考

加筆&ちょっと優先順位を調整。 コンセプト ギャンブルまがいの「当たればデカいけど、成功確率低い」事もどんどんやって行きます。下手な鉄砲も数撃ちゃ当たる!!! その為の方策として、手間がかかるパラメータ調整は全部学習ルーチンに押し付けます。具…

第24回世界コンピュータ将棋選手権 反省会場

ではまず、選手権で頻出した課題局面から。将棋所の画面を使わせて頂きました。 はい。初期局面です。 GA将!!!!!!!が先手番で指した手は、大抵7八金です。で、それを見た相手はほぼほぼ飛車を振ります。 自己対戦での学習時に、GA将!!!!!!!は居飛車ばかり指…

ニコ生デビューしました

http://live.nicovideo.jp/watch/lv178221612 の1:05:00位からです。 大合神クジラちゃんの中の人に呼ばれてホイホイ出ましたので、興味のある方はぜひ。

強化学習の論文2件

「Deep Learning in Neural Networks: An Overview」 http://arxiv.org/pdf/1404.7828.pdf 「Active Reward Learning」 http://www.ias.tu-darmstadt.de/uploads/Publications/Daniel_RSS_2014.pdf

第24回世界コンピュータ将棋選手権

私的には選手権は「年に一度のお祭」なので、今回も参加出来て非常に楽しかったです。 運営・共催・協賛等関係者の皆様、お疲れ様でした&ありがとうございました。おかげ様で貴重な時間を過ごす事が出来ました。 優勝したAperyチームの皆さん、おめでとうご…

明日やるべき事

GA将のウェブサイト更新(WCSC24のコメント更新&バージョン表記を修正) 今年一年のTODOリストを作成 Ver.8のプロジェクトを作成 ブログの下書きを清書する

来年に向けてのプラン

鬼の笑う来年の話。ひとまず完成形はこんな形。 昨日一昨日対局した感じだと、探索と評価関数の両方を頑張らないと上には行けないので、どっちも学習で何とかします。 それから、マシンパワー(並列性)は基本的には合議で活用する方向です。 グランドデザイ…

選手権終わりました

GA将!!!!!!!の第24回世界コンピュータ将棋選手権は、二次予選敗退で昨日をもって終わりました。 自戦記とかは後日書きます。

選手権初日

いよいよ一時予選の日になりました。 まずは一次突破を目指して頑張ります。 途中経過はTwitterで呟きますので、@MoriokaYuichiをご覧ください。

よし!

今日はもう寝よう!!

賭け、悪あがき、もしくは最後のお願い

今更並列探索を実装したくなってきた。 んで、マシンが2コア4スレッドなので、ルート仮説が成り立つなら√(0.6*4)=1.55倍の高速化… ん〜、リスキーだけど、一次予選突破のボーダーライン上にいると言う予測からすると、奥の手としてはアリかもしれない。 ま、…

これでFix

選手権用設定として、アサーション完全無効化・対局時の乱数無効化した設定でsspと対局。 んで、結果はi7 4930Kマシンが256-0-44でi7 940マシンが263-0-37。トータル519-0-81で勝率86.5%、95%信頼区間は83.5〜89.1。 とりあえずエンバグしている形跡は無い…