冬休みの宿題
もうすぐ正月休みなんで、その間に基礎データを収集しようと思って、その課題。
問題設定
- 盤の大きさをn*nの三目並べとする(4≦n)。
- どちらかのプレイヤーが自分の石を3つ直線上に連続して並べたら、そのプレイヤーの勝ち。
- それ以外は通常の三目並べと同じ。
- 上記のゲームを、強化学習を用いて解く。
目標
- 強化学習において、状態・行動数と収束までの対局数(=エピソード数)の関連を調べる。
補足
- 上記問題設定では先手必勝なので、m回*1連続してグリーディー方策での対局結果が先手勝ちになれば、収束したものと見なして良いと思います。
私がやってみる事
- PengのQ(λ)+Deep Learning+Softmax方策で解く。
- ネットワーク構成は、全結合層のみ(256ユニット×3層程度を想定)とConvolution Layer(3x3のフィルタ)有りの場合を比較してみる予定。
- 時間の余裕があればDropoutもやってみたい。
*1:m=20位が適切?