PGMC(仮称)の初期局面での結果
15:17:26 @ core::rl::PgMcAgent::goBench() > 26.324602sec, 160388773nodes, 379.9kplayout/sec 15:17:26 @ core::rl::PgMcAgent::goBench() > selectedMove==(25)→(34)+角, score==0.000023(1892895), pi==0.107605 15:17:26 @ core::rl::PgMcAgent::goBench() > (54)→(53)+歩, score==-0.000293(45664), pi==0.026426 15:17:26 @ core::rl::PgMcAgent::goBench() > (55)→(44)+王, score==-0.000012(88886), pi==0.092009 15:17:26 @ core::rl::PgMcAgent::goBench() > (45)→(44)+金, score==-0.000005(11588), pi==0.095273 15:17:26 @ core::rl::PgMcAgent::goBench() > (45)→(34)+金, score==-0.000202(36550), pi==0.039582 15:17:26 @ core::rl::PgMcAgent::goBench() > (35)→(34)+銀, score==0.000099(1711101), pi==0.150999 15:17:26 @ core::rl::PgMcAgent::goBench() > (35)→(24)+銀, score==-0.000006(947570), pi==0.094649 15:17:26 @ core::rl::PgMcAgent::goBench() > (35)→(44)+銀, score==0.000102(1944794), pi==0.153214 15:17:26 @ core::rl::PgMcAgent::goBench() > (25)→(14)+角, score==-0.000059(1778148), pi==0.074951 15:17:26 @ core::rl::PgMcAgent::goBench() > (25)→(34)+角, score==0.000023(1892895), pi==0.107605 15:17:26 @ core::rl::PgMcAgent::goBench() > (25)→(43)+角, score==-0.000005(1258583), pi==0.095158 15:17:26 @ core::rl::PgMcAgent::goBench() > (25)→(52)+角, score==-0.000513(137226), pi==0.009924 15:17:26 @ core::rl::PgMcAgent::goBench() > (15)→(14)+飛, score==-0.000315(76373), pi==0.024016 15:17:26 @ core::rl::PgMcAgent::goBench() > (15)→(13)+飛, score==-0.000915(9468), pi==0.001669 15:17:26 @ core::rl::PgMcAgent::goBench() > (15)→(12)+飛(-歩), score==-0.000233(61154), pi==0.034526
5五将棋の場合です。
下の方は、「指し手、プレイアウト末端での平均評価値、カッコ内は試行回数、最後が選択確率」の順です。
53歩とか52角、13飛・12飛等の明らかな悪手には大きなマイナスが付いているので、まぁ妥当な結果と考えて良いかと思います。