2013-08-16 なんか、バグっぽい 開発日記 4x4リバーシをPGLeafで学習させながら、完全読みプレイヤー相手の対局結果をログに出してみました。 んで、1エージェントの場合は先手・後手共に対局結果が最善(後手8石差勝ち)になるのですが1エージェントの場合でも、10エージェントや100エージェントの平均でも後手の学習結果が最善の値に収束しません(平均で後手2石差勝ち)。 // ↑ 21:15訂正 1エージェントでも正常に収束しませんでした。 つー訳で、学習ルーチンのバグって可能性が出て来たんで、いっぺんミッチリと調査してみます。