2008-05-19 成果無し 開発日記 バグは発見出来ず。 後手のε(ランダムに行動する確率)を1.0、先手は0.01で学習させてみましたが、2局目以降は先手が勝ち続けました。 よって、強化学習部分はちゃんと動いている(多分)。 評価関数も問題無し(多分)。 αβで探索するのもOK(多分)。 となると後は…学習が遅いだけ? とりあえずパラメータを引き継いでもう一晩学習にトライしてみます。