やっちまったー

開発日記

レポート収集系の再実装した時に、パラメータのセーブ機能を実装するの忘れてて、そのまま一晩走らせてました。つまり、一晩分の学習結果×8がパー＿|￣|○ セーブを実装したんで、今からリトライします。

2011-08-30

報酬の割引を実装したら、ちょっと改善

開発日記

後手のみ学習で、例として下記局面での各手を指す確率をログ出力してみました。 ■■■■■ ■○× ■ ■○ ■ ■ ■ ■■■■■ 手番：後手で、ログを眺めてると、○の2つ並んでるのを止めないといけないんだけど、止めた後の勝ち方をなかなか学習出来ていない（止めた後の手順…

2011-08-30

まだまだ方策勾配法

開発日記

三目並べでテストしてるんですが、片方のみ学習で変な現象が。先手のみ学習だと100局かからずに勝率が100％になって、その後はごくまれに負ける位なんですが、後手のみ学習だと勝率が95％前後までしか行きません。試しにソフトマックス方策の目標探査率を0…

2011-08-29

三目並べ・リバーシでの実験結果

開発日記

学習条件は下記の通り。方策勾配法+ソフトマックス方策初期温度0.02 温度可変、目標探査率0.05 学習しない側のプレイヤーは、合法手リストの最初の手を指す先手のみ学習後手のみ学習両方学習三目並べ ○（50局ほどでちゃんと収束） ○（50局ほどでちゃん…

2011-08-29

昨夜から走らせた結果

開発日記

テーブル形式の評価関数で先手だけ学習しても、ちゃんとした結果にはなりませんでした。ログを見てると平均報酬とベースラインの関係がおかしい*1ので、その辺を一度調べてみます。 *1:相関係数が低い

2011-08-28

もちょっと実装

開発日記

引き続きレポート収集系の再実装。完成度80％位かな。それと、今までリバーシは線形の評価関数でやって上手く動いてなかったんで、テーブル形式の評価関数に戻して一晩走らせてみます。これでOKなら評価関数の問題だし、NGなら多分それ以外の問題。

2011-08-28

情報収集系の再実装中

開発日記

前の実装だと生のデータ構造をそのまま外に見せてたりして、イマイチ使い勝手が悪いので再実装してます。とりあえず基礎構造含めて50％位は完成したので、後はガシガシ書いてくだけです。ついでに、エージェントの情報（方策勾配法の最小分散ベースライン…

2011-08-27

しつこく方策勾配法

開発日記

4x4のリバーシを関数近似あり・探索無しで学習させてみたんですが、変な現象発見。先後両方学習させるとちゃんと先手8石負けになるんですが、片方のプレイヤーだけ学習させると結果が変です。具体的には、先手だけ学習すると双方最善を尽くすと引き分けって…

2011-08-27

Mini-ITXマザーが4枚入るケース

コンピュータ関連

http://akiba-pc.watch.impress.co.jp/hotline/20110827/etc_morex.html が発売されたらしいです。サイズは普通のATXケース並で、電源は150W×4個。 Core i7×4だと1ケースで32スレッドになりますが、発熱が大変な事になりそうですね。かと言ってAtomとかAMD E…

2011-08-27

Xeon E5-2600シリーズの情報

コンピュータ関連

http://blog.livedoor.jp/amd646464/archives/52212310.html 8コア・16スレッドモデルの最上位が2687Wの3.1GHzで、しかもTDPが150W。モデルナンバー的にこれより上が出る可能性は少ししか無さそうですし、Core i7 2600が3.4GHzという事と比較すると、ちょっ…

2011-08-26

方策勾配法のデバッグ中

開発日記

幾つか細かいバグは潰しましたが、それでもまだちゃんと動いてなさそうな感じです。三目並べで片方のプレイヤーだけ学習させても、勝率が100％になりませんし。一番気になってるのはソフトマックス方策の温度設定なんですが、これがまずいのかなぁ…

2011-08-25

Windows 7 x64のエクスプローラでトラックポイントのスクロールを有効にする方法

コンピュータ関連メモ

Vistaではスクロール出来ていたのが、7だとNGだったので調べてみました。主にこの辺を参考に。まず、やった事。 http://www.synaptics.com/support/driversからv15.2.20のドライバをダウンロード＆インストール C:\Program Files\Synaptics\SynTP\tp4table.…

2011-08-24

方策勾配法のデバッグ中

開発日記

とりあえず5五将棋で片一方のプレイヤーだけ学習させて、それでちゃんと勝率100％になるのを目指します。とりあえず方策内でのムーブオーダリング絡みのバグ*1を潰して、学習しない側の設定を色々しつつ様子を見てみました。んで、学習しない側が常に最初…

2011-08-21

連続対戦テストの結果

開発日記学習経過

学習後同一プロセス内だと556-4-418、将棋所だと394-0-295。勝率も95％信頼区間もほぼ一致したんで、セーブ・ロード周りには多分問題無しかと。という訳で、方策勾配法に戻って学習再開。ちょっとだけ最適化したけど、基本今まで通りです。

2011-08-20

続連続対戦

開発日記

自前のルーチンで連続対戦させて、347-2-244になりました。将棋所だと392-2-265（昨日の結果から）。勝率も95％信頼区間もほぼ同じになったので、連続対戦ルーチンの問題は多分潰せたと思います。という訳で、再度学習→そのまま連続対戦のテストをしてみま…

2011-08-19

連続対戦の結果がおかしい理由、判明したかも

開発日記

自前の連続対戦ルーチンで探索ルーチンに渡す情報に「秒読み1.7秒」って設定していて、探索ルーチン内で更に0.7秒足してた。んで、結果として自前のルーチンだと2.4秒、将棋所だと1.7秒考えてるって事になって、そのせいで勝率が変だった可能性大。とりあ…

2011-08-19

連続対戦の結果

開発日記

学習と同一プロセスだと538-1-267、将棋所だと392-2-265でした。 95％信頼区間はそれぞれ63.5〜70.1、55.8〜63.4なので、明らかに強さが違いますね。セーブ・ロードまわりがおかしいのか、自前の連続対戦ルーチンがおかしいのか切り分けたいので、今度はセ…

2011-08-18

連続対戦ルーチンのテスト

開発日記

ssp対Lesserkaiだと強さに差がありすぎてテストにならなかったので、Lesserkai同士でテスト。んで、自前のルーチンと将棋所の両方でほぼ同じ結果になったので、多分大丈夫って事でしょう。という訳で、再度学習してその後連続対戦テストをしてみます。

2011-08-18

連続対戦の設定、ミスってた

開発日記

学習したプロセス内での連続対戦だと521-4-35で、パラメータを一旦セーブして将棋所で連続対局すると257-3-115でした。ただ、将棋所の方だけPonder有効だったので、これが原因でGA将!!!!!の勝ち星が減っていた可能性があります。という訳で、まずは自前の…

2011-08-17

Windows 7上にLaTeX環境構築

コンピュータ関連

http://www.hyuki.com/techinfo/texinit.htmlを参考にしました。まず、http://www.math.sci.hokudai.ac.jp/~abenori/soft/からTeXインストーラ3 0.81r7をダウンロード。解凍して実行。選択肢はデフォルトのままでポンポンとボタンを押していって、5〜10分で…

2011-08-17

初歩的なミスだったorz

開発日記

上で書いた"426-1-449"の426勝は、GA将!!!!!が先手で、かつ、勝った場合のみのカウントでした。後手で勝った場合はカウント無し。そりゃぁ結果が変になるはずです。納得。

2011-08-17

さて、困った

開発日記学習経過

学習してたプロセスでそのままLesserkai 1.3.3と対局させると426-1-449。一旦パラメータをファイルにセーブして将棋所でLesserkai 1.3.3と対局させると351-4-82。どちらも思考時間は1.7秒。つまり、一度セーブ・ロードした方が強い…って結論は間違ってます…

2011-08-16

Wikiを書いたりとか

開発日記コンピュータ将棋

http://www.usapyonsoft.jp/shogi/wiki/wiki.cgi?%b5%a1%b3%a3%b3%d8%bd%ac 機械学習を起点に色々書いてみました。分かりづらい部分があればご指摘お願いします。 …んでまぁ、そういうコトしてるって事は、開発が進んでないんですよねぇ。一応、USIで入玉勝…