GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2015-06-01から1ヶ月間の記事一覧

うん、つまりは

初期温度が低いと、十分に探査しないうちに「一見良さそうな」手に高評価が付いてしまい、その後の探査が十分に進まないらしい。 となると、温度を高めに保って常に探査が行われる状態にすべき? それとも、初期温度さえ適切に設定すればOK? …う〜ん、判断…

あ、レ…!?

試しに初期温度を低め(0.01)に設定したら、先手のみ学習でも収束しなくなった。 となると、後手固有の問題では無い?

後手の学習が収束しない件

試しに4x4のリバーシでテストしてみると、こっちは全く収束する気配無し。 バグかな、バグだろうなぁ… てかこれ、オンライン学習化する前からの潜在バグか?

収束速度の件

昨夜書いた三目並べでのバグ疑惑ですが、先手のみ学習だと800局で収束。後手のみだと10万局。 …けど、何が原因なんだろう。

オンライン学習化はまだ途中

三目並べで後手の収束が遅い OR 収束しないという問題が見つかったので、現在対策中。 試しに自己対局ではなく、先手は「学習あり」・後手は「学習無しで完全読み」にしてみると、先手はすぐに収束します。 という訳で、後手番の処理のどっかが間違っている…

SR-PGLeafのオンライン学習化

http://d.hatena.ne.jp/Gasyou/20150617/1434540968 前に書いた改良案は根本的な問題が見つかって、一時中断する事にしました。 んで、今度はSR-PGLeafをオンライン学習風に修正開始。 三目並べでザックリ動かした感じだと、かなり収束が早くなっていました。…

重点サンプリングの実験

とりあえず動いて、それなりに効果があるのは確認出来ました。 という訳で、明日からはGA将に組み込んで行きますか。

久々の更新

http://d.hatena.ne.jp/Gasyou/20150606/1433554794 前回から色々やってみて、どうも上手く行かない様なので色々検討中。 んで、通常のSoftmax方策+方策勾配法の枠組みでは、評価値にボーナスを与える方法はNGみたいです。 そういう訳で、エージェントの実…

探索ルーチンのリファクタリングは中断

強化学習関連でやってみたい事が出来たんで、そっちを優先します。 んで、何をするかと言うと、自己対局時に「あまり学習していないパラメータが出て来た局面を優先的に選ぶ」というものです。 今までの自己対局では「評価値が高い手ほど高確率で選ぶ」様に…

結局枝刈り関連しか修正しなかった

YssTreeのログ出力と枝刈り成功率を見比べて、いくつかあやしい挙動&バグを潰しました。 んで、ある程度の品質にはなったと思うんで、改めて学習用マシンに投入。 全幅5手+静止探索で24時間あたり30〜40万局程度の学習速度なんで、まぁ割と実用的な時間に収…

探索ルーチンのリファクタリング中

とりあえず朝から走らせた結果は、ルートノードでのαの設定にバグが有ったんで無駄になりました。 んで、とりあえず修正して学習用マシンに再投入。 それから、今日は枝刈りの成功率の表示とかPVの検証とか、細々した部分を作っていく予定。余裕があればYssT…

方向転換

VAPS(Value And Policy Search)は一旦やめて、探索ルーチンのリファクタリングに着手。 現時点で各種枝刈りを実装して、自己対局での学習に使える様にはなりました。 という訳で、5五将棋モード・全幅5手+静止探索6手の設定で学習用マシンに投入。 しばらく…

バグ、再現しねぇ _| ̄|○

自己対局で学習していると、時々「一旦勝敗を読み切った後に、1〜2手進むと読み切れなくなる」って現象があります。 んで、たま〜にしか発生しないのでログを常に出すのも非効率ですし、かと言って意図的に再現させてその近辺だけログを出すのも難しそうです…