Parameterというクラスが既にあるんで、そこで学習時に使用した回数*1をカウント。
後はファイルにパラメータをセーブ・ロードする時にパラメータごとの学習回数も一緒に処理して、評価関数全体の学習回数も同じファイルに保存。
って書くとすんなりいったかの様に見えますが、ちょっと苦労しました。
何しろ最近は探索の方を色々やってたんで、評価関数やパラメータの内部の事は少し忘れちゃってました。
さて、後はパラメータの使用回数に応じてボーナスを与える所ですが、その前に30分ほど*2デバッグモードで走らせてみます。