GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2017-01-01から1年間の記事一覧

思い付いたら即・実・装!!!

上で書いたアイデア、早速実装してみました。 んで、とりあえずアサーションに引っ掛からない程度には動く様になったので、学習用マシンに投入。 ただ、まだちゃんとテスト出来てないんで、明日にでもテストしてみます。 多分2〜3日位は収束するまで時間かか…

geanee WPJ40-10-WH購入しました

geanee Windows Phone 4インチ ホワイト WPJ40-10-WH出版社/メーカー: geaneeメディア: オフィス用品この商品を含むブログを見る 税込み¥5,800の激安Windows 10 Mobile機。更に、アマゾンギフト券がタップリあったから実質負担ほぼ0円。 作りとしてはチープ…

COMBINING POLICY GRADIENT AND Q-LEARNING

https://pdfs.semanticscholar.org/c59d/19162ca24f412e4bbb10095c942c71815a57.pdf Abstract読んだ限りでは、表題そのまんまな内容らしい。

カーネル法による構造データの解析

http://www.geocities.co.jp/kashi_pong/publication/PRMUslide.pdf 将棋の駒組みは有向グラフとして表せるから、それを何とか評価関数に落とし込めないかと思っていたんですが、この手法なら行ける…かも。 基本的には「有向グラフを、任意ノードから始めて…

Online Learning Rate Adaptation with Hypergradient Descent

https://arxiv.org/abs/1703.04782 直前の勾配と現在の勾配の関係から、学習率を自動調整するらしい。

Evolution Strategies as a Scalable Alternative to Reinforcement Learning

https://arxiv.org/abs/1703.03864 ひょっとして、GA将のGAが復活する、かも!?

Google/DeepMind先生がまたやらかしたらしい

Google、人間のように学習を積み上げるAIを開発 - PC Watch 原論文はまだ探してないですが、コンピュータ将棋の学習に応用出来そうな気もしますし、不要な気もします。 要するに「パックマンの学習後にPongの学習をしても、パックマンの知識が残るよ」って話…

Aero Shakeっていらない子だよね

http://weekly.ascii.jp/elem/000/000/022/22691/ という訳で、上記サイトを参考にオフにしてみます。

収束しねぇ

先日書いた改良案ですが、順調にレベルアップして過去最高のLv.1177を記録しました。 …が、そこでエラー吐いて止まっちゃったんで学習やり直し。まぁ、途中経過は保存してあるんで、一辺それで対局させてみますが。 ただ、現在は探索ルーチン&評価関数を小…

絶対値の大きなパラメータの0クリア機能を追加

森北出版の「強化学習」に「Samuelのチェッカープレイヤーでは、絶対値の大きなパラメータを0クリアすると局所解から抜けれたらしい(要約)」と書いてあったのを思い出したので、その機能を実装してみました。 単純に「絶対値の大きいものN個」とすると面倒…

もうちょっとFPGAについて調べてみた

http://tkysktmt.hatenablog.com/entry/2016/12/03/Amazon_AWS%E3%81%8CFPGA%E5%AF%BE%E5%BF%9C%E3%81%97%E3%81%A6%E3%81%97%E3%81%BE%E3%81%A3%E3%81%9F https://aws.amazon.com/jp/ec2/instance-types/f1/ どうも、AWSのF1インスタンスってやつでFPGAが使…

Deep LearningのロジックをFPGAに落とし込む話

http://www.atmarkit.co.jp/ait/articles/1701/30/news007.html TensorFlow、Caffe、Chainer等を使ってPythonで書いたコードを、自動的にFPGAに落とし込む事が出来るそうです。 内部的には一旦C++に変換しているらしいので、C++のコードを直にFPGA用に変換出…

レア局面の検出・誘導機能は断念

http://d.hatena.ne.jp/Gasyou/20170116/1484545404 レア局面の検出がどうやっても上手く動いてくれないので、これは断念する事にしました。 んで、前にやっていたEBIE-EBベースのパラメータへのボーナス加算を修正して実験中。 前と変わったのは、On-Policy…

第10回UEC杯5五将棋大会 in GAT 参加申し込み完了

http://minerva.cs.uec.ac.jp/~uec55shogi/wiki.cgi?page=%C2%E810%B2%F3UEC%C7%D5+in+GAT%A3%B5%B8%DE%BE%AD%B4%FD%C2%E7%B2%F1 さっき申し込みのメールを送りました。これで後戻り出来ないです。 それから、サイコロ将棋大会の方ですが、開発リソースが足…

置換表の論理クリアを実装

http://d.hatena.ne.jp/Gasyou/20090515/1242380863 大分前に書いた方式で、面倒なんで実装していなかったんですが必要にかられて。 んで、現在は連続対局させつつテスト中。多分、ちゃんと動いています。

自己対局学習時のレア局面の検出・誘導機能

http://d.hatena.ne.jp/Gasyou/20170110/1484038534 前回の日記ではきちんと書いていませんでしたが、今トライしているのはレア局面の検出と誘導です。RPSと書いたのがそれで、過去のエピソード中に出現しなかった状態へと優先的に移動する様にした結果、5x5…

ThinkPad 13(初期モデル)レビュー

http://d.hatena.ne.jp/Gasyou/20160829/1472478392 凄く今更ですが、昨年買ったThinkPad 13のレビュー等。ネタ切れとかゆーな! 開発遅延の影響でもないですからね!! ちなみにこのマシン、普段はTwitter&Web閲覧専用のサブ機です。UEC杯とかでは実戦用マ…

PGLeafの改良案の5x5格子世界でのテスト結果

縦横5マスの格子世界で、左下からスタートして右上に到達したらゴール、という問題をREINFORCEと改良案(RPS)で解かせてみました。 同一条件でテストした結果が上記で、左が改良版・右が素のREINFORCEです。 左の方は、ゴールを除く全てのマスで最適な方策*…