GPSARSAにKISSGPを適用するためのメモ

GPSARSAは、ガウス過程(隠れ層数を無限大まで極限に飛ばしたニューラルネットはガウス過程に収束する)をつかった強化学習アルゴリズム。

参考 Reinforcement learning with Gaussian processeshttp://www.billhowell.ca/

論文では、

\(\Sigma_t=\sigma^2 H_t H_t^{\mathsf T}\)

として、

\(\mathbf{\alpha}_t=H_t^{\mathsf T} (H_t K_t H_t^{\mathsf T} + \Sigma_t)^{-1}\mathbf{r}_{t-1}\)

\(C_t=H_t^T (H_t K_t H_t^T + \Sigma)^{-1} H_t\)

と表記してる。パット見、KISSGPのようなスケーリング手法を使えないように見えてしまうけども、そんなことはない。

展開

論文での\(\Sigma_t\)を展開してやる。以後、\(\Sigma\)の意味を変える(共分散行列になる)ので注意。

\(\mathbf{\mu} = K_{XX^*}^{\mathsf T}H_t^{\mathsf T} (H_t (K_{XX} + \sigma^2 I) H_t^{\mathsf T})^{-1} \mathbf{r}_{t-1}\)

\(\Sigma = K_{X^*X^*} -K_{XX^*}^{\mathsf T}H_t^{\mathsf T} (H_t (K_{XX} + \sigma^2 I) H_t^{\mathsf T})^{-1} H_t K_{X^*X}\)

\(\mathbf{f}^* \sim N(\mathbf{\mu}, \mathbf{\Sigma})\)

こうなる。