小宮日記に反応する
まずはid:mkomiya:20071106:p9。例のCSAブログへの反応です。
以上考えると、「序盤の階層化された戦略」「終盤のn手すき」
この二つを解決せねば、プロ棋士に勝てる日は来ないのではないだろうか?
階層化された戦略ってのは、「使用する評価関数を選択する OR 評価関数のパラメータを状況に合わせて変更する」といった感じで実現するものでしょうか*1。例えば「2筋を突破したいからその付近の駒の価値を高めにする」といった感じの。
n手すきは・・・よく理解出来てないです。何手までなら手抜き*2出来るか、って事だったっけか。
んでまぁ、ここからは私の考え。
今主流のコンピュータ将棋って、結構構成要素が多いじゃないですか。定跡・αβ・静止探索・評価関数・詰め将棋ルーチンって感じで。ソフトによっては探索の延長・短縮をしてたり静止探索が二段階だったりαβの中で詰め将棋を呼んでたりとか、さらに増えるでしょうし。
で、構成要素が増えると、今度はそれらのバランスを取る作業が必要になってきて、私にはかなり荷が重いと感じます。
それならいっその事評価関数+αβだけにして、評価関数の精度をとことん追求する方が私には向いているでしょう。
(その為の手段として強化学習を選んだ訳ですが、それはまた別の話。)
まぁ、結局は流儀と言うか主義と言うか、そういうものの差でしょうね。
例えとして分かりやすいかどうかははっきりしませんが、小宮さんが目指してるのは「総合性能でレシプロ機トップクラスのP-51」、私は「ロケット一発芸 Me163」みたいな感じ。
もう一つid:mkomiya:20071106:p7の記事なんですが、ここ。
投資アルゴリズムの開発とかするのかね? 株ロボをリアルで作りましたみたいな。
Bonanza的な学習を株式市場でやってみても面白いかもね。競馬とか。オッズから過去の順位と一致するように重みを学習することで、未来も予測する。ある意味、ベイズ統計の考え方ですよね。
株式なら株価データをどっかからひっぱってきて教師あり学習、ってのは割と簡単に出来そうですよね。ちゃんと予測出来るかどうかは分かりませんが。
私はウェブ上*3のデータを分析して、それ+株価を元に将来の株価変動を予測出来ないかなぁ、とか思ってます。まぁ、実際やるのは最短でもコンピュータ将棋で満足出来るものが出来た後ですが。
んで、そいつを使ってひと財産築いたら遊んで暮らしたいなぁ、とw