色々思い付いたので書き散らす
とりあえずTDLeaf(λ)+線形評価関数が上手く行かないので、それの対応策。
- 教師ありで学習してみる(評価関数・探索ルーチンは流用)
- TDLeaf(λ)のエージェント以外がちゃんと動作しているかの確認 + 情報収集が目的
- いきなりニューロで評価関数を実装してみる
- 当ればでかい、外してもダメージがでかい
- とりあえずネットワークへの入力をどうするか(局面そのままか特徴量抽出するか、それともそれらの複合か)を検討せねば
- TDLeaf(λ)のパラメータをいじってみる
- λの設定とか怪しいので、その辺
- 高速化してごまかす
- 並列化も視野に入れてみる
- 評価関数でボーナスを付加
- あんまり効果無さそう… でも実装コストは低い
- TDLeaf(λ)の学習部分再実装
- メンテの容易さとか考えると、学習の成功・失敗に関わらずやっとく必要あり
- もういっその事Bonanza Methodで良いんじゃね?
- 講演会で柿木さんの話を聞いてから
- 旅に出る
- 探さないで下さい
- 気分転換
- 部屋の掃除でもしようかな、模様替えもしたいし