GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

TDLeaf(λ)+L2正則化+RMSProp最強説

 AlphaGo Zeroの真似っ子中なんですが、交差エントロピーの項が怪しいのでそこを外して学習中。構成はタイトルの通り。

 んで、5五将棋モードで駒割の値が収束してしばらく経ったんで、sspと連続対局中。

 現時点で24勝0敗、95%信頼区間は85.8〜100.0。

 なんか、苦労して作ったPGLeaf改をアッサリ上回りそうで怖いんですが…

 後、TDLeaf(λ)のλ収益計算式は桜丸さんに教わった方式で計算しています。λはやや大き目に0.85に設定しました。