ざっくりテストしてみましたが、多分正しいはず。ただ、まだ強化学習エージェントには組み込んでないので、本格的に動き出すのは明日から。
他に、リバーシの局面クラスと強化学習のタスクを結ぶ部分を実装。テーブル形式*1の行動価値関数を使うバージョンは、三目並べで作ったのがそのまま動くので、一晩動かしてみます。
ついでに、学習用マシンはメモリが4GBあるのでJDKのx64対応版をインストール。オプションで-Xmx3gが出来るので幸せ。
まぁでも、価値関数がむちゃくちゃメモリ喰うから、多分明日の朝には異常終了してるでしょう。