GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

冬休みの宿題

 もうすぐ正月休みなんで、その間に基礎データを収集しようと思って、その課題。

問題設定

  1. 盤の大きさをn*nの三目並べとする(4≦n)。
  2. どちらかのプレイヤーが自分の石を3つ直線上に連続して並べたら、そのプレイヤーの勝ち。
  3. それ以外は通常の三目並べと同じ。
  4. 上記のゲームを、強化学習を用いて解く。

目標

  1. 強化学習において、状態・行動数と収束までの対局数(=エピソード数)の関連を調べる。

補足

  1. 上記問題設定では先手必勝なので、m回*1連続してグリーディー方策での対局結果が先手勝ちになれば、収束したものと見なして良いと思います。

私がやってみる事

  1. PengのQ(λ)+Deep Learning+Softmax方策で解く。
  2. ネットワーク構成は、全結合層のみ(256ユニット×3層程度を想定)とConvolution Layer(3x3のフィルタ)有りの場合を比較してみる予定。
  3. 時間の余裕があればDropoutもやってみたい。

*1:m=20位が適切?