GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

冬休みの宿題

開発日記

　もうすぐ正月休みなんで、その間に基礎データを収集しようと思って、その課題。

問題設定

盤の大きさをn*nの三目並べとする（4≦n）。
どちらかのプレイヤーが自分の石を3つ直線上に連続して並べたら、そのプレイヤーの勝ち。
それ以外は通常の三目並べと同じ。
上記のゲームを、強化学習を用いて解く。

目標

強化学習において、状態・行動数と収束までの対局数（＝エピソード数）の関連を調べる。

補足

上記問題設定では先手必勝なので、m回*1連続してグリーディー方策での対局結果が先手勝ちになれば、収束したものと見なして良いと思います。

私がやってみる事

PengのQ(λ)＋Deep Learning＋Softmax方策で解く。
ネットワーク構成は、全結合層のみ（256ユニット×3層程度を想定）とConvolution Layer（3x3のフィルタ）有りの場合を比較してみる予定。
時間の余裕があればDropoutもやってみたい。

*1:m=20位が適切？