2007-09-24 実験結果 開発日記 4x4のリバーシをメタ強化学習ありの強化学習で4プロセス走らせてみた結果、3つは正しく8石差と学習し、1つは9石差でした。全部同じ条件での実験なので、乱数の影響で結果が変わっているのでしょう。 で、ログを見てみると先手と後手が「もうこれ位の石差で手を打とうよ」って感じで妥協しちゃってる*1状態になっていました うーん、こういう状態を避けたいからメタ強化学習を導入したんだけどなぁ。 という訳で、もうちょっとメタ強化学習で悪あがきしてみます。 *1:それ以上新しい手を探そうとしない