GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

評価関数の学習部分が完成

 ざっくりテストしてみましたが、多分正しいはず。ただ、まだ強化学習エージェントには組み込んでないので、本格的に動き出すのは明日から。

 他に、リバーシの局面クラスと強化学習のタスクを結ぶ部分を実装。テーブル形式*1の行動価値関数を使うバージョンは、三目並べで作ったのがそのまま動くので、一晩動かしてみます。

 ついでに、学習用マシンはメモリが4GBあるのでJDKのx64対応版をインストール。オプションで-Xmx3gが出来るので幸せ。

 まぁでも、価値関数がむちゃくちゃメモリ喰うから、多分明日の朝には異常終了してるでしょう。

*1:局面と評価値の対応を記憶するだけの、シンプルな価値関数