色々やったので更新

TODO

リバーシ関連盤面の実装評価関数の実装（あまり複雑な事はしない）石の位置・手番による評価手数と石の数による評価着手可能数開放度この後の進展次第で追加 MinMaxの実装探索値との平均二乗誤差の計算メタ強化学習 αβの実装必勝読みの実装適格度…

非グリーディー行動選択時の動作を修正

開発日記

今までは全ての手を等しい確率で選択するという処理だったのですが、Boltzmann分布を使って評価値の高い手ほど高確率で選ぶ様に変更しました。 Boltzmann分布には温度というメタパラメータがあるのですが、それもメタ強化学習で修正可能に。今一回動かした…

開発日記

完全読み8手必勝読み無しそれ以外はαβ5手で指し手決定だと上手くいきました。ただ、4x4のリバーシで最初から4石置いてあるので、αβで先読みするのは最初の4手だけ。これじゃぁ上手くいって当然です。で、試しに完全読みを6手に減らしてみると、こんな感…