GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2009-04-01から1ヶ月間の記事一覧

さらに忘れてた分を追加

選手権終わったらやる事。 コンピュータ将棋の改良 一からコードを書き直す(現在も進行中) 三目並べ・リバーシ・将棋を一つの強化学習エージェントで学習可能にする 評価関数は差分計算を基本にする ABC探索 Ponderの実装 とりあえず普通の 相手番に、対局…

この前のバグの謎

http://d.hatena.ne.jp/Gasyou/20090421/1240307773で書いた評価関数のバグですが、発生条件が「特徴量の二乗の合計が0」でした。 で、評価項目として王将との相対位置か二駒の相対位置は常に有効にしているので*1、特徴量の二乗の合計が0になるはずが無いで…

王手千日手

13時の回の対gps_l戦がGA将!!!の王手千日手負け負けだったんですが、そうしないと自玉が詰んで負けるって状況だったみたいですね。 今は、王手千日手の評価値は「負け+100」で、詰んだら「負け+詰め上がりまでの手数」になってるんで、王手千日手で負けた…

改めてgoogle凄いかも

http://www.google.co.jp/search?source=ig&hl=ja&rlz=1G1GGLQ_JAJP322&q=TD%E5%AD%A6%E7%BF%92%E6%B3%95%E3%80%80%E4%B8%89%E7%9B%AE%E4%B8%A6%E3%81%B9&btnG=Google+%E6%A4%9C%E7%B4%A2&meta=lr%3D&aq=f&oq= "TD学習法"と"強化学習"が似た単語だとちゃんと…

昨夜から参戦中

現在レーティング1200チョイって所です。前のオープン戦で手も足も出なかったtohskeに追い付いた?*1 それから、読み筋が変だったんでパラメータファイルを確認したら、4/9のかなり古いファイルでした。これではダメダメなんで、学習用マシンでの最新ファイ…

ようやくOSが届いた

これでfloodgate参戦用マシンを動かせる様になります。 今日はOSその他色々インストールで、明日から参戦予定。

忘れてた分を追加

コンピュータ将棋の改良 一からコードを書き直す(現在も進行中) 三目並べ・リバーシ・将棋を一つの強化学習エージェントで学習可能にする 序盤はUCTで指すのを試す ABC探索 Ponderの実装 とりあえず普通の 相手番に、対局中の局面から学習してみる カブロ…

OracleがSunを買収予定

http://internet.watch.impress.co.jp/cda/news/2009/04/20/23215.html 結局IBMでもHPでもなく、Oracleがゲットする事になったみたいです。 個人的にはJavaの今後がどうなるか気になりますが、まぁ何とかなるでしょう、多分。

現在の状況

この前書いた全幅1手+静止探索4手での学習を動かすと、一晩どころか1時間もたたずににエラー吐いて止まってました。 で、その原因が評価関数のパラメータ調整ルーチンのバグ&千日手の評価値の扱いのバグだとやっと判明したのが昨日の夜。 その後とりあえず…

意外とやる事残ってる

将棋の学習関連 TDLeaf(λ)エージェントを再実装。 方策をエージェントから独立させる。 学習中の各種統計情報の収集・表示ルーチン実装。 std::vectorあたりを勉強しとくこと。 王手将棋での予備実験。 εグリーディーとソフトマックス手法の比較。 評価関数…

2〜3日分、200万局ぐらい(多分)

ちょっと前に学習させて、そのまま放っておいたパラメータを軽くテスト。強いとは言えないけど、まぁ悪くないレベルなんで、選手権用としてとりあえず確保しときます。 んで、今までは方策内部で1手全幅で読んで、その先で静止探索1段目4手+2段目無制限*1で…

モンテカルロどうぶつしょうぎに反応してみる

id:tihara:20090415:p1 5五将棋よりさらに小さいどうぶつしょうぎでのモンテカルロを実際に作られた様です。ランダム指し→原始モンテカルロ→さらに改良と、だんだん強くなっていったみたいです。 それで、将棋で強化学習をしている者の立場から、感想とか気…

WILLCOM NS

http://www.willcom-inc.com/ja/lineup/ws/026t/index.html インターネットアクセス専用の端末というコンセプトは面白いと思いますけど、出来ればもうちょっと画面が大きい方が嬉しいなーとか考えたり。 あと、今持ってるWILLCOM 03と二台持つとなると、正直…

GAを用いて物理法則を自力で発見したプログラム

http://pc.nikkeibp.co.jp/article/news/20090415/1014307/ 色々な振り子の運動の様子をデータとして与えて、そこからGAで運動の様子を記述する式を作ったらしいです。 現時点では「使い勝手の良いツール」って位置付けらしいですが、将来もっとすごいのに発…

選手権持ち物リスト(案)

PC及び電源・マウス・LANケーブル プログラムとソースコード 名刺 暇つぶし用の本 オーディオプレイヤー 着替え 普段飲んでる薬 あと、選手権までにやる事。 ノートPCへの開発環境インストール&動作テスト ノートPCの壁紙を人に見られても恥ずかしくないの…

floodgate参戦用マシン、組んじゃいました

色々あって、半衝動買い (`・ω・´) 近所のエイデンでパーツ揃えました。 CPUは結局Athlon X2 5050eにしました。 Pentium DCと組み合わせれるローエンドチップセット(G31とか945GC)はメモリが4GBまでしか積めないので、それならいっそAMDで組もう!という…

Atomマシン構成案

OS Windows XP Professional(32ビット版) M/B Jetway NF94-270-LF(Atom N270+945GSE) RAM DDR2 SO-DIMM 2GB適当なの HDD Seagate Momentus 5400 PSD(ハイブリッドHDD・流用) 光学ドライブ USB外付けの適当なの ケース A-ITX-100P080 Atomに速さを求め…

選手権終わったらやりたい事まとめ

まぁ、選手権の対局を見てればこれ以外にもやりたい事が出てくるでしょうけど。 Atomで一台組む(floodgate等に) コンピュータ将棋の改良 一からコードを書き直す(現在も進行中) 三目並べ・リバーシ・将棋を一つの強化学習エージェントで学習可能にする …

一旦整頓

将棋の学習関連 TDLeaf(λ)エージェントを再実装。 方策をエージェントから独立させる。 学習中の各種統計情報の収集・表示ルーチン実装。 std::vectorあたりを勉強しとくこと。 王手将棋での予備実験。 εグリーディーとソフトマックス手法の比較。 評価関数…

Lesserkai相手に23勝0敗0分け

という訳で、今朝のパラメータ+ちょっと修正したプログラムでfloodgateに復帰。修正内容は乱数を少し大きく*1しただけです。 それから、学習用マシンには評価項目を増やしたバージョンをパラメータ持ち越しで投入。今の項目はこんな感じです。 駒割 絶対位…

現在10-0-0(vs Lesserkai)

20-0-0になったらfloodgateに投入します。

漫遇将棋の紹介記事 @ Yahoo!

http://headlines.yahoo.co.jp/hl?a=20090409-00000575-san-bus_all ざっと読んだ感じだとニューラルネットワークを使ってるッポイですけど、実際の所そこまでは明記されてないですし、詳細は不明。 とりあえず、なんか新しい事をしてて強いらしいという位は…

今朝までの分、約60万局

昨日の夜から学習開始して、何故か今朝8時40分頃に止まってたんで、そこまでの分。この時間は家を出た後ですし、エラーメッセージとかは特に見あたらなかったんで、本当に原因不明。 ともかく、ある程度学習出来てたと思うんで、Lesserkaiと一局指して貰いま…

千日手回避ルーチンを実装

打ち歩詰めのバグを修正したバージョンを学習させていたんですが、評価項目の影響で千日手がしょっちゅう起きてました。んで、それを回避するルーチンを追加して、学習にリトライ。 ざっとテストした限りでは引き分け率は0になったみたいなんで、多分ちゃん…

オープン戦感想とか

ひたすら通信トラブルで落ちまくって、結局3回戦でリタイアしてきました。将棋の内容どうこう言う以前の問題ですね。 んで、さっきも書いたとおり探索がおかしかったので、そうすると学習結果もおかしい(同じ探索ルーチンを使ってるんで、まともな結果にな…

打ち歩詰めがバグってた

floodgateの18:00の回で、最後の8六桂を読めてなかったんですが、打ち歩詰め判定の条件が変でした。 今までは 手番側の合法手が0個 かつ 手番側の王将に王手がかかっている かつ 最後の手が駒を打つ手 って条件でした。肝心の駒の種類を見てねーです orz さ…

オープン戦、明日かと思ってた

明後日の日曜ですね。んじゃ、明日は一日たっぷり開発ですか。

近況とか開発の状況とか

強化学習での評価関数の学習ですが、あんまり強くなってくれません。 で、現状のコードだとテストやらなんやら色々不都合があるので、まっさらの状態から書き直す方向で進めています。 という訳で、次回オープン戦&選手権は適当に学習した評価関数で参戦。…