リバーシ用のTDLeaf(λ)完成(一応)
論文に書いてあるTDLeaf(λ)は方策オン学習なんですが、これを方策オフに修正しました。
理由は…まぁ色々。
一番大きいのは、4x4のリバーシでテストしていると、収束後も初期局面の評価値が小さな幅で変化してしまうのを止めたかった、という理由。
おそらく初期局面以外でも同じ事が起きていて、放置すると正確な評価値が得られない可能性があると判断したので。
んで、方策オン→方策オフの修正ですが、基本的にはsarsa→Q学習と同じ事をすればOKでした。ただし、エージェント自身の行動がグリーディーであったか*1だけではなく、相手番エージェントの行動がグリーディーであったかどうかも考慮しないと、評価値の小幅な変化が無くなりませんでした。
こういう修正*2をすると、二人プレイのゲームに限定したエージェントになってしまいますが、まぁ探索とか評価関数でもゲーム固有の処理をしていますし、気にしない事にします。