GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2007-09-01から1ヶ月間の記事一覧

実験結果 from 金曜

大体こんな感じでした。全局面の平均二乗誤差 - 着手数あり 着手数なし 開放度あり 4.86 5.86 開放度なし 4.97 5.77 対局中に表れた局面の平均二乗誤差 - 着手数あり 着手数なし 開放度あり 1.53 0.38 開放度なし 0.37 0.72 対局中の平均二乗誤差はid:streak…

NVIDIAの次世代GPUについて

ネットでの噂だとハイエンドのコードネームがG90で、アッパーミドルレンジがG92らしいです。 で、性能的には G90 >>(決して越えられない壁)>> GeForce 8800 Ultra/GTX/GTS ≒ G92 >> GeForce 8600 GTSって感じになるんでしょうか。あくまで勝手な予想ですが…

大須で色々物色

キャプチャカード*1・グラフィックカード・CPU・電源etc。 んで、グッドウィルEDMの4階でよさげなジャンクパーツ発見。 ねじ等の小物入れなんですが、8部屋に仕切ってあって部屋ごとにふたが付いてるヤツ。 こーゆーのってあんまり売ってないし、あったとし…

NVIDIA CUDA 1.0のリリースノートを見落としてました

Hardware Support o Additional hardware support added - Quadro FX 5600 - Quadro FX 4600 - GeForce 8800 Ultra - GeForce 8600 GTS - GeForce 8600 GT - GeForce 8500 GT http://developer.download.nvidia.com/compute/cuda/1_0/CUDA_Release_Notes_win…

メモリリークしてると思ったら

二つあるスタックを初期化する時に、片方しか初期化してなかった。 てか、片方を二回初期化してた。 死んできます _| ̄|○

実験結果

メタパラメータを徐々に変更する効果はかなりあって、誤差が小さくなりました。大体こんな感じ。全局面の平均二乗誤差 - 着手数あり 着手数なし 開放度あり 4.85 5.44 開放度なし 5.07 5.50 対局中に表れた局面の平均二乗誤差 - 着手数あり 着手数なし 開放…

メタパラメータを可変に

とりあえずε*1は1.0、学習率は0.05から始めて、対局が終わるごとに0.001^(1.0/50000)倍*2する事にしてみました。 今の所7000局程度進んで、対局中に表れた局面での平均二乗誤差が4.5程度*3。明日夜にどれだけ良くなっているか楽しみです。 これで上手くいっ…

実験結果

全局面での平均二乗誤差はid:streakeagle:20070905:1188998083とほぼ同じで、対局中に表れた局面だけでの平均二乗誤差はこんな感じ。 - 着手数あり 着手数なし 開放度あり 4.20 4.43 開放度なし 6.12 3.44 着手可能数・開放度共に無いのが一番誤差が少ない、…

平均二乗誤差計算を少し追加

上で書いた「対局中に現れた局面だけで平均二乗誤差を計算」を実装しました。 試しにテーブル形式*1で試すと誤差が3を切りました。多分、時間をかければもっと減るでしょう。 関数近似ありの場合*2でも、ざっと動かしてみた感じでは対局中の局面に対しては誤…

教師あり学習と強化学習の比較結果

学習率とかのパラメータは固定して、評価関数で着手可能数とか開放度とかをあり・なし色々組み合わせて一晩動かした結果です。評価関数は、これら二つの項目+石の位置による評価+盤上の石の数による評価としました。 表に書いた数値は、MinMaxで初期配置か…

↑みたいな記事書いてると、オンラインの電卓が欲しいなぁ

どっかのサーバから1ドル何円かを定期的にダウンロードしてきて、それを元に$と¥の変換をしてくれるやつ。 ついでに、ブラウザのプラグインとして動作して、マウスオーバーで変換結果を表示してくれたら神認定。 ・・・自分で作れってか? 「言いだしっぺ…

Barcelona予価

http://www.dailytech.com/AMD+Prices+Barcelona/article8729.htm 今の所ソースがDailyTechだけなので信頼性は不明ですが、Barcelonaの価格が出ていました。Optern 23xxシリーズ モデルナンバー クロック TDP 価格 2350 2.0GHz 95W $372 2347 1.9GHz 95W $31…

4x4のリバーシも不調

昨日の夜から学習しているのですが、対局終了まで先読みした結果との平均二乗誤差が割と大きい値です。 Q学習に問題があるのか評価関数の方に問題があるのか不明なので、同じ評価関数を使って強化学習バージョンと教師あり学習バージョン*1で比較してみます…

ちょw誰だよww

ラミエルたんで検索してきたのは。 ちょっとお話しようか。いい友達になれそうだ。

ちょっと追加

リバーシ関連 盤面の実装 評価関数の実装(あまり複雑な事はしない) 石の位置・手番による評価 手数と石の数による評価 着手可能数 開放度 この後の進展次第で追加 MinMaxの実装n 探索値との平均二乗誤差の計算 αβの実装 必勝読みの実装 ← ここまでの目標 9…

結局、平均二乗誤差を計算する事に

MinMaxでの終局までの先読みを実装して、先読み結果と評価関数の出力の平均二乗誤差を計算するコードを追加。 んで、5x5以上だとメモリが足りなくてMinMaxで落ちるので、4x4で実験する事に。 まぁ、単純な事だから順調順調。NegaMaxなのにNegaになってない、…

学習結果

微妙。ログを見てみると、学習しているけど遅いだけにも見えるし、学習していない様にも見える。 となると、選択肢は 大穴狙いでαβを実装して高速化 堅実にMinMaxでの完全読みとの二乗誤差を計測 のどちらか。 ・・・って、どの道MinMaxとαβは必要、か。とり…

ホストOSとゲストOSをシームレスに扱える仮想PC

http://www.forest.impress.co.jp/article/2007/09/03/virtualbox150.html 要するにUNIXでX Window Systemを使った時みたいに、ホストOS*1の画面上にゲストOS*2のアプリを配置出来るらしいです。 おまけに、仮想シリアルポートもサポートしてるとかホストOS…

今日までの実装項目を反映

「Q学習の拡張」というのは、上で書いた「非グリーディー行動時には価値関数のバックアップをしない」というものです。 適格度トレースを実装した時点で、非グリーディー行動時の価値関数の目標は、単に先読みして得た評価値に過ぎなくなる*1ので、それを目…

今日は外で遊んでたので少なめ

Q学習では、実際の対局でどの手を指したかとは無関係に*1、「仮にグリーディーな行動*2を取っていたら、その後の局面の評価値がどうなっていたか」を予測して評価関数のバックアップ*3を行います。 しかし、「TD法+関数近似では上手く動くけど、Q学習+関数…

機動戦士ガンダム 0083 カードビルダー

映画館の下の階にゲーセンがあって、映画を観ると駐車場6時間無料なのでやってきました。店側の策略にのせられてるなぁw んで、ヤヴァイっすね、このゲーム。 一回遊ぶとカードが1枚出てきて、それで自分のユニットを強化したり出来るんですが、良いカードが…

ヱヴァンゲリオン新劇場版:序 (ネタバレ注意)

映画の日から遅れること一日、観てきました。ネタバレあるので“続きを見る”で。

評価関数へ開放度の追加&その他色々

やった事。 開放度の評価 石の重みを進行度*1に応じて異なる値に 局面のundo()の追加 undo()は今まで無くて、先読みする場合はclone()してから手を進めてたんですが、開放度の実装したら+αでundo()が作れる様になったので追加。 でもあんまり速くなってない…

開放度

リバーシの評価関数の解説を見てると“開放度”ってヤツが頻繁に出てくるんですが、これって何なのかちょっと考えてみました。 基本的には「裏返した石の8近傍にある空きマスの数の合計」らしいんですが、要するに「隣接したマスが空いてるほど相手に取り返さ…

着手可能数の実装完了

つっても、合法手一覧を生成するメソッドは既にあるので、それを利用しただけですが。 (そういや、id:streakeagle:20070828:1188309666で書いた方法は、やっぱり便利です。評価関数の拡張をしていて実感。) んで、「Q学習で関数近似を行うと、学習結果が収…

予定変更

リバーシの時点で各種技術を実装して、効果を検証した上で将棋に移植します。 通常のコンピュータ将棋では出てこない用語が色々ありますが、実装したら軽く解説を書きます。 リバーシ関連 盤面の実装 評価関数の実装(あまり複雑な事はしない) 石の位置・手…

6x6リバーシの学習結果

2晩かけても収束していませんでした。というか、全然学習が進んでいない感じ。 理由を予測してみると、次のどちらか。 評価関数のキャパシティ*1が不足している。 4x4より解空間が大きくなったので学習が進んでいない様に見える 一つ目は評価関数を拡張して…

プリンタ購入

CanonのiP4300っつーヤツです。近所の家電量販店でVista x64対応のを探してきました。 んで、文字印刷専用のインクは綺麗だし、デフォルトで両面印刷機能があるし、結構満足。 今はメタ強化学習の論文を印刷中。