2020-01-07

学習ルーチンの分散コンピューティング化に必要な事

TODO

サーバ・クライアントのプログラムの修正・実装
- サーバ（Java：通信周りを実装）
- サーバ（C++：パラメータ更新周りを修正）
- クライアント（Java：GUIと通信周りを実装）
- クライアント（C++：自己対局＆勾配計算周りを修正）
ランキングのデータ集計＆HTML化プログラムの実装
クライアントでスレッド数の上限を撤廃する＆必要なオブジェクトをスレッド数分だけ生成する様に修正（現在は最大スレッド数をハードコーディングしているので）
レンタルサーバの選定・契約
インストールマニュアル等のドキュメント作成

2020-01-07

「強くてニューゲーム」の可能性を検証してみた＠コンピュータ将棋界

現在のコンピュータ将棋開発の知識を持って20年前（2000年）または30年前（1990年）の世界に降り立ったとすると、どのくらいの強さのプログラムが作れるのでしょうか。当時最強だったものと比べての差はどうでしょうか
＞専門家の皆様
（リプでなくても、どこかに回答を書いて頂ければ読みに行きます）
— math26 (@math26) January 7, 2020

　面白そうな話題なので、細々と検証してみる事にしました。
　

1990年編

www.eonet.ne.jp

　1990年のPCは、上記サイトによると高々20MHz程のCPUと2MB程のRAMしか無いので、現状のコンピュータ将棋*1を対局させる事すら無理そうです。

　ましてや、機械学習で評価関数パラメータを学習するのは、夢のまた夢かと思います。

　この時代だと、「現在の知識は全く活かせない」という可能性が非常に高いです。

2000年編

ハードウェア構成

　確か、IntelとAMDが「1GHzレース」を展開中だった時代だと記憶しています。あと、この頃はコンシューマ向けのPentium II/IIIでもデュアルCPU構成が可能だったので、安価に構築可能でした。

　コンシューマ向けですと、2020年2月にRyzen Threadripper 3990X（64コア128スレッド・ベースクロック2.9GHz）が出る予定ですので、CPUパワーは現状から2桁程度落ちる計算でしょうか。

　メモリに関しては128MBのSDRAMが売っていた記憶があるので、512MB位の容量は個人でも確保出来そうな感じです。三駒関係だと「対局は可能だけど、学習するのは無理そう」かと思います。

探索ルーチン

　私がコンピュータ将棋を実装し始める前なので書籍等から得た知識ですが、この頃は選択的探索が主流だった様です。

　ただし、激指さんが実現確率探索を実装したのが2001年選手権バージョンからで、2002年には優勝していますので、実現確率探索に関する知識は活かせるかと思います。「劇的に強くなる」かは分かりませんが、数年のアドバンテージは得られそうですね。

　ついでに、当初の実現確率探索は「指し手をグループに分類して、グループごとの遷移確率を採用する」方式だったのが、後に「指し手の遷移確率を、ロジスティック回帰を用いて学習する」様に変更されたので、変更後の方式を実装すれば当時のソフトと比較して強くなる可能性は高いかもしれません。

評価関数

　上記の通り、三駒関係の評価関数は主記憶の容量の問題で学習不可能だと思います。なので、「任意の二駒関係」が上限かと思います。

　ただ、二駒関係ならメモリ専有量が減る＆学習の収束が速くなるので、2000年でも実用レベルかもしれません。

機械学習

　Bonanza Methodならある程度容易に並列化出来るので、ハイエンドPCを多数並べて学習させれば実用可能範囲かと思います。あるいは、1台のPCで学習を回して、収束するまでじっくり数ヶ月～1年程度待つとか。（参考までに、Bonanzaさんの選手権デビューは2006年。）

　自己対局等での強化学習は、Bonanza Method以上にマシンパワーを要求します。多分、同じ棋力になるまでに必要な計算量は1～2桁は上がるんじゃないかという印象です。なので、こっちは「知識はあっても、ハードウェアの制限で実現不可能」かと。

並列探索＆合議

　当時のハイエンドPCでも、高々2コア2スレッド構成ですので、並列探索の場合にLazySMPはあまり有効に動かなそうです。YBWCで十分かと。

　合議に関しては、単にLAN等で接続された複数のPCがあればOKなので、2000年当時でも実用可能な技術です。文殊さん（2009年選手権デビュー）方式の多数決合議よりも、後で提案された楽観的合議の方がクライアント数を増やした場合の伸びしろが大きい*2ので、こっちを採用すれば10年程度のアドバンテージは有るかと。