リバーシ関連もほぼ完成
とりあえず局面クラス・指し手クラスは完成。学習させるとちゃんと収束しました。
ただ、現状ではαβ探索を組み込んでいない、素の方策勾配法(REINFORCE)です。PGLeafにするには、探索ルーチンを書かないといけないです。
んで、今日はもう時間がないので続きは今度の休みに持ち越し。
この分だと、5月中には4x4リバーシをPGLeafで学習させるのは完成しそうです。
となると、6〜7月に将棋の局面関連のクラスを作って、8月・9月に探索・評価関数実装って感じで行けるかな?
とりあえず、当初の予定よりはやや早めに進行してるんで、今のペースを何とか維持したいですね。