TD(λ)とTDLeaf(λ)の統一された見方
「TD(λ)とTDLeaf(λ)の違いは、価値関数(=評価関数)の実装方法の違いだけなんじゃないか」って話をダラダラと書きます。要はチラシの裏。個人的に考えをまとめるためだけのものです。
まず、適格度トレースがあると話がややこしくなるので、ここではTD(0)とTDLeaf(0)に絞って扱います。
TD(0)の価値関数の更新ルールは下記の通り。
は「状態での行動の価値」、は学習率、rは「状態で行動を行った際に得られた報酬」、は割引率(0〜1)、は状態の2手*1後の状態、とはそれぞれとで選択した手です。
式の意味は「xの値をで示す割合だけyに近付ける」という事なので、この場合はがの目標値となる。
以下、将棋の場合に限定すると、状態=局面、行動=手となる。
# 余談ですが、事後状態価値関数を導入するとと書ける。は「状態s'で行動aを行った後の状態の価値」である。将棋の場合であれば、事後状態価値関数を評価関数として用いる事が出来るので、これらの関数は同一視しても構わない。
次に、TDLeaf(λ)の更新ルール。
なお、は「状態から探索を行った、PV末端の状態」を、は「状態で行動aを行った後の状態」を示すものとする。
ここで、とすると、上記の式は
となる。
この式をTD(0)の更新ルールと見比べてみると、QとXが異なるだけで、他の部分は全く同一となる。
つまり、を「内部で探索を行う、動的な価値関数」と見なせば、TD(0)とTDLeaf(λ)は同一のアルゴリズムと考えれる。
# この部分ですが、別にTDLeaf(λ)にケチをつけようとかそういう意図ではなく、単に「そういう見方も出来る」と書きたいだけです。
で、同一のアルゴリズムと考えると何が嬉しいかというと、一つはTD(λ)の派生アルゴリズム(例えばQ学習)とTDLeaf(λ)を混ぜ合わせた、「方策オフTDLeaf(λ)」等のアルゴリズムの設計が容易になるという事。
もう一つ嬉しいのは、アルゴリズムの選択が容易になるという事。
TD(0)とTDLeaf(λ)の選択を強化学習アルゴリズムの選択と考えるとどちらを選ぶべきかは難しいです。しかし、価値関数の実装が静的か動的かの違いだけと捉えれば、後は自分の扱いやすい価値関数の実装を選ぶだけなので、比較的簡単な問題です。
という訳で、私はこの考え方を応用して方策勾配法とTDLeaf(λ)のいいとこ取りをしたアルゴリズムを実装してみようと考えています。
…後は図書館でリクエストした本が届くのを待つだけなんですが、待つ間ってのは辛い時間ですね。もうちょっとの辛抱です。
*1:自分と相手の手