GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

独自アルゴリズムの実現のメドが立ってきました

 前にもブログに書いたかもしれませんが、現在のGA将の学習ルーチンでは、勝ったら+1・負けたら-1の報酬を対局終了時に与えています。

 で、これを適当に分割して、1手ごとに報酬を与えるってのを検討中です。ただし、1局通しての報酬の合計は+1か-1になる様に調整します。

 問題は、こうするとパラメータ修正用に取っておくべきデータが大量になって、ざっくり計算すると1TBほどのデータになります。

 さすがにこれは実用的ではないのですが、一つ学習時の前提条件*1を加えると、実用的なメモリ消費量・処理時間で実用化出来そうです。

 と言う訳で今日はこれから実装。前にプロトタイプは作ってあったので、ちょっと修正すれば完成しそうです。明後日までには何とか結果が出せれば…という感じですね。

*1:割と緩い条件なので、クリアするのは簡単です