課題局面、見つかった

開発日記

http://d.hatena.ne.jp/Gasyou/20140507/1399441835 で書いた局面です。この後３七桂成と進むんですが、それがちょっと悪かったんじゃないかな、と。とりあえず評価関数の改良は後回しですが、いずれちゃんと指せる様になるか検証してみます。

2014-05-13

一つ↑、対処方法が間違ってるかも。

開発日記

ムーブオーダリングをHistory Heuristic使う様にしたら、イテレーションが5〜6回でPV長が10前まで行きました*1。ただ、これって根本的な解決にはなってないですね。遷移確率でオーダリングしてmpnが大きくなるという事は、遷移確率の精度が低いって事で、…

2014-05-13

イテレーション回らない疑惑

開発日記

疑惑っつーか事実なんですが、原因が分かった…かも。えー、ムーブオーダリングが適当すぎて、mpn*1が3〜4になってました。という訳で、遷移確率でオーダリングするんじゃなくて、History Heuristicでオーダリングに修正してみます。 5五将棋でイテレーショ…

2014-05-13

大域的収束性を持つ方策探索法

後で読む

「e射影に基づく方策探索法」 https://kaigi.org/jsai/webprogram/2014/pdf/781.pdf これで「後で読む」が4つになっちゃいました… どっかで時間作って読まないと。

2014-05-13

イテレーション回んね〜

開発日記

Softmax実現確率探索を実装＆テスト中です。とりあえず5五将棋でザクッと学習させて、sspと連続対局。んで、タイトルの通り。実現確率を0.1ずつ減らしていくと、イテレーションが3回でPVの終端までの手数が5〜6手になります*1。という訳で、リダクション…

2014-05-13

Softmax実現確率探索に特徴を追加

開発日記

SEE（交換値？）を特徴として追加しました。一応SEEの計算にバグが無いかはチェックしてみたので、多分ちゃんと動くはず。んでもって、これでどこまで性能が改善するか、ですね。

2014-05-10

MCTSのシミュレーション方策の学習

後で読む

「Improvements to MCTS Simulation Policies in Go」 https://www.wpi.edu/Pubs/E-project/Available/E-project-042914-175427/unrestricted/MCTS_Simulation_Policies_in_Go.pdf

2014-05-10

さて

開発日記

今日からはSoftmax実現確率探索の遷移確率学習を始めるわけですが、当たればR+500というデカい博打です。学習則がやや複雑なのでエンバグしないか心配ですが、まぁ何とかしましょう。目標としては土日のうちに学習ルーチンを実装し、来週いっぱいかけて学…

2014-05-10

久々にvs ssp（5五将棋モード）

開発日記

目標探査率を0.1〜0.5にした上で、学習則に温度の逆数の項を追加したバージョン。学習時の探索深さは2+6、対局数は36万。んで、結果。317-?-94で勝率77.1％、95％信頼区間は72.8〜81.1。取りあえずこの評価関数パラメータを使い、探索パラメータだけ学習さ…

2014-05-09

Softmax実現確率探索を実装中

開発日記

Softmax方策と探索ルーチンで共通のコードが必要なのに今更気づいて（おい）、共通部分の切り出しとかやりました。んで、肝心の探索ルーチンですが、まだ一部未実装。具体的には反復深化する所とか。という訳で、内部で探索する部分はあるけど、USIの送受…

2014-05-08

GA将!!!!!!!! 開発開始

開発日記

今日から本格的に開始です。んで、まずはSoftmax実現確率探索の探索ルーチンから実装中。明日には探索部分を完了して、その後遷移確率の学習部分に着手予定。まずは5五将棋で探索用パラメータだけ学習（評価関数パラメータは以前のを流用して、固定）させ…

2014-05-07

GA将 Ver.8開発開始

開発日記

取りあえず新しいVC++プロジェクトを作って、Ver.7から流用するソースを全部ブチ込んでコンパイル。で、実行。 …エラーですよ、いきなり。えー、スタックサイズを指定していなくて、ログ出力関数内でスタックサイズオーバーして落ちました。このデバッグに…

2014-05-07

評価値計算にシグモイド関数を用いる、非線形評価関数の実装

開発日記アイデアメモ

えー、上で書いた「もう一つの課題局面」から…なんですが、どの対局だったか忘れちゃったんで局面図無しです。言い訳すると、一次・二次合わせて16戦してるんで、ログが埋もれても仕方ない…訳は無いんですが。あと、ひょっとしたら練習対局だった可能性もあ…

2014-05-07

プラン再考

開発日記 TODO

加筆＆ちょっと優先順位を調整。コンセプトギャンブルまがいの「当たればデカいけど、成功確率低い」事もどんどんやって行きます。下手な鉄砲も数撃ちゃ当たる！！！その為の方策として、手間がかかるパラメータ調整は全部学習ルーチンに押し付けます。具…

2014-05-07

第24回世界コンピュータ将棋選手権反省会場

開発日記

ではまず、選手権で頻出した課題局面から。将棋所の画面を使わせて頂きました。はい。初期局面です。 GA将!!!!!!!が先手番で指した手は、大抵７八金です。で、それを見た相手はほぼほぼ飛車を振ります。自己対戦での学習時に、GA将!!!!!!!は居飛車ばかり指…

2014-05-06

ニコ生デビューしました

コンピュータ将棋

http://live.nicovideo.jp/watch/lv178221612 の1:05:00位からです。大合神クジラちゃんの中の人に呼ばれてホイホイ出ましたので、興味のある方はぜひ。

2014-05-06

強化学習の論文2件

後で読む

「Deep Learning in Neural Networks: An Overview」 http://arxiv.org/pdf/1404.7828.pdf 「Active Reward Learning」 http://www.ias.tu-darmstadt.de/uploads/Publications/Daniel_RSS_2014.pdf