評価関数の学習部分が完成 - GA将？開発日記～王理のその先へ～

　ざっくりテストしてみましたが、多分正しいはず。ただ、まだ強化学習エージェントには組み込んでないので、本格的に動き出すのは明日から。

　他に、リバーシの局面クラスと強化学習のタスクを結ぶ部分を実装。テーブル形式*1の行動価値関数を使うバージョンは、三目並べで作ったのがそのまま動くので、一晩動かしてみます。

　ついでに、学習用マシンはメモリが4GBあるのでJDKのx64対応版をインストール。オプションで-Xmx3gが出来るので幸せ。

　まぁでも、価値関数がむちゃくちゃメモリ喰うから、多分明日の朝には異常終了してるでしょう。

*1:局面と評価値の対応を記憶するだけの、シンプルな価値関数