GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2007-10-01から1ヶ月間の記事一覧

強化学習の移植中

Javaで作ったエージェント*1はTD法→Q学習→TD(λ)→Q(λ)と色々アルゴリズムを変えながら拡張していったので、かなりグチャグチャになっていました。 が、今回C++に移植するにあたって*2ちゃんと整頓したら割と綺麗になりました。 まぁ、綺麗なのは最初だけで、…

GPW申し込み完了

ゲーム情報学研究会の登録・研究費払込はしたし、GPWも参加費払込んで申し込みFAXを送ったし、手続きはこれでOK・・・のはず。 あ、そうだ。交通手段の確保しないと。やっぱ新幹線かなぁ。夜行列車は高いし。

結局また評価関数の修正

私は局面クラスの中に過去の*1局面を全部持っているのですが、評価関数がその履歴を覗き見出来る様にしました。 と言っても、基本的なロジックは同じままでクラスを一個追加&そのクラスを評価関数の引数に渡す様にしただけですが。 後はVC++のデバッグの設…

GeForce 8800 GTS終了のお知らせ

http://pc.watch.impress.co.jp/docs/2007/1030/nvidia.htm いいですけどね、こうなるの分かってて買ったんだから。

今日の目標。「ニュース関係の日記本文はURL+1行で収める」。 だって時間が・・・(ry

評価関数完成(多分)

パラメータのセーブ・ロードをチョコチョコと作って、これで必要な機能は揃った(はず)。 さて、後は本命の強化学習関連ですね。GPW杯はかなり絶望的。のんびり観戦しますかね。

評価関数がほぼ完成

局面評価と学習二種類(目標出力を与えるバージョンとTD誤差を与えるバージョン)、それから初期化とか細々した機能。 あ、パラメータのセーブ・ロードを作ってない。JavaだとSerializeを使えば楽だったけど、C++だとどうしよう・・・

とりあえずASSERTの修正

id:streakeagle:20071026:1193400322で書いた修正ですが、0除算だとコンパイラがエラーだと認識するのでNULLポインタアクセスにしました。コメントで教えてくれたかずさんに感謝。

ちょっといいアイデア浮かんだかも

例によって酔ってる時ほどアイデアが出ます。 C++では自前のASSERTマクロを作ってエラーチェックしてるんですが、コマンドプロンプトから実行してエラーが出てもVC++でデバッグ出来なくて悩んでました。 んで、ASSERT内でexitするんじゃなくて、意図的に0除…

Nehalemがらみの記事@PC Watch

http://pc.watch.impress.co.jp/docs/2007/1026/kaigai397.htm Nehalemはダイサイズが大きいクアドコアが先行するので、ミドルレンジの真ん中以上から展開 Extremeエディションは$999からさらに値段が上がって性能も上がる ってのが主題だと思います。 あと…

今日はデバッグのみ

選手権前に作った教師あり学習のコードがエラーを吐いてたんで、調査&修正。結局、王手放置していた棋譜が残ってました。 てか、今頃エラーを発見する様じゃ選手権の結果*1も納得です。 教師あり学習はニューロの評価関数作ったら使いまわす予定だし、今の…

逆シャァ&F91がBlu-ray化

http://www.watch.impress.co.jp/av/docs/20071025/bandai1.htm どちらも¥8,190、発売日は来年2月22日予定だとか。 次世代光ディスクにはあんまり興味なかったけど、これは観てみたいですねぇ。

NECのスパコン

http://enterprise.watch.impress.co.jp/cda/hardware/2007/10/25/11469.html CPUコア1つで100GFLOPSオーバーとか1ノードで1TBのメモリとか月額レンタル料金が298万円とか、いろんな意味でPCとは別次元ですね。 で、例によってベクトルプロセッサ採用でメモ…

本日実装分を追加

リバーシ関連 盤面の実装 評価関数の実装(あまり複雑な事はしない) 石の位置・手番による評価 手数と石の数による評価 着手可能数 開放度 この後の進展次第で追加 MinMaxの実装 探索値との平均二乗誤差の計算 メタ強化学習 αβの実装 必勝読みの実装 適格度…

評価関数実装中

現在完成度は80%前後といった所。 今は学習するだけしか出来ないけど、明日少し拡張してパラメータのセーブ・ロードと評価を実装する予定。 評価項目はTODOリストにも書いてありますが、大体こんな感じ。 駒割 絶対位置による評価 王将との相対位置による評…

ちょいと更新

王将の動ける範囲の評価と王将周辺の利きの数を追加。 リバーシ関連 盤面の実装 評価関数の実装(あまり複雑な事はしない) 石の位置・手番による評価 手数と石の数による評価 着手可能数 開放度 この後の進展次第で追加 MinMaxの実装 探索値との平均二乗誤…

評価関数は駒割のみ

あくまで今の所、ですが。 で、大体の枠組みは出来たので、明日は評価項目を色々追加してみます。

実験結果

TD(λ)に適格度トレースを組み合わせて4x4リバーシで対戦させた結果ですが、λが大きいほど収束が速くなっていました。 結果のグラフは見ても面白く無さそうなので掲載せず。 とりあえず上手く動いている様なので、将棋の方にも組み込んでみます。

完全ワイヤレスのHMD

http://plusd.itmedia.co.jp/lifestyle/articles/0710/23/news006.html 選手権の時に自分のPCの脇にいなくてもログを見れたりして便利そうかなぁ、とか思ってます。 まだ試作品で実用化は5年後の予定らしいですが、多少荒削りでもいいので早く製品化して欲し…

日立がPC製造から撤退

http://pc.watch.impress.co.jp/docs/2007/1023/hitachi.htm デスクトップPCは自作以外使う気がないですが、ノートPCの選択肢が一つ減るのは痛いですね。 それと、日立がHDD製造から撤退するという噂があったのは、この件と関連があるのかもしれません。 て…

ようやく将棋が始まった・・・

リバーシ関連 盤面の実装 評価関数の実装(あまり複雑な事はしない) 石の位置・手番による評価 手数と石の数による評価 着手可能数 開放度 この後の進展次第で追加 MinMaxの実装 探索値との平均二乗誤差の計算 メタ強化学習 αβの実装 必勝読みの実装 適格度…

強化学習コンピュータ将棋開始

以前のバージョンから局面とか色々ゴチャゴチャしたファイルをコピーして、Visual Studioのキーバインドを設定して、エディタの色を設定して・・・ 結局ほとんど開発らしい事はしていません(汗 まぁでも、キーボードショートカットとかエディタの背景・文字…

Nehalemファミリのオクタコア

http://pc.watch.impress.co.jp/docs/2007/1022/kaigai395.htm しかし、今後はCPUコア数で、PC&ボリュームサーバとMPサーバーCPUは明瞭に差がつくようになる。そのため、違いが明確化してゆくだろう。ちなみに、AMDのネイティブオクタコアCPU「Sandtiger(サ…

ミスってたぁ!

昨日の夜から動かしてた実験ですが、失敗。原因は単純なミス。凹むなぁ。 とりあえず上手く行きそうな感じですし、実験させつつ将棋用の評価関数を実装しようと思います。

ゲーム情報学研究会の準会員入会手続き

GPW参加の為に。別に必須じゃないけど、参加費と研究会登録費を考えると安くなりますし。 んで、https://www.ipsj.or.jp/cgi-bin/sig-jun.cgiから申し込んだんですが、色々面白そうな研究会がありますね。 とりあえず「計算機アーキテクチャ」と「自然言語処…

あ、しまった

水冷ユニットを取り外したけど、水抜くの忘れてた。 明日やろう、明日。

学習用マシンをいじってたら時間が・・・

という訳で今日は簡単に。 やったのは、リバーシのTD(λ)*1にメタ強化学習を組み合わせるだけ。既存のクラスを切り貼りしただけです。 とりあえずメタ学習するのはε*2だけにして、λ*3は固定。 で、λを0.0〜1.0まで変化させた数パターンで一晩学習させてみます…

CPUクーラー購入

色々考えてサイズのMUGENってヤツにしました。今から換装します。

SeagateのハイブリッドHDD

http://www.watch.impress.co.jp/akiba/hotline/20071020/etc_hybrid.html 同じく秋葉原登場。120GBで2万円弱ですから、SSDよりは手が出しやすそうですね。 ただ、大須には影も形も無かったので、私はもうチョイ様子見。 てか、買っちゃうとOS再インストール…

Quad-Core Opteronが秋葉登場

http://www.watch.impress.co.jp/akiba/hotline/20071020/etc_barcelona.html 安いのはいいんだけど、性能はどうなんでしょうか。