ガウス過程の整理

ご無沙汰してます。あー忙しい。書くヒマあんまりないです。

ガウス過程の要点をまとめておきます。みんなディープニューラルネットワークに目がいってるせいかガウス過程の要点整理はあんまりみかけないので。

本記事に必要な前提知識

基礎的な線形代数。

モデル

[latex]\mathbf{x}=(x_1,\cdots,x_K)[/latex]となる多変量の入力[latex]\mathbf{x}[/latex]と出力[latex]y[/latex]に対して、ノイズ[latex]\varepsilon \sim N(0,\sigma^2)[/latex]を考慮して

[latex]y=f(\mathbf{x})+\sigma^2[/latex]

となるような関数[latex]f[/latex]を求める（この行為を回帰と呼ぶ）。

ガウス過程回帰

観測値が[latex]N[/latex]個あるとする。ということは[latex]\mathbf{y}=(y_1,\cdots,y_N)^T[/latex],[latex]\mathbf{X}=(\mathbf{x}_1^T,\cdots,\mathbf{x}_N^T)^T[/latex]みたいな感じになるイメージ。

カーネル関数（後述）を[latex]k(\mathbf{x},\mathbf{x}’)[/latex]として、

[latex]\forall i,j \in \{1,\cdots,N\}[/latex]のもとで

[latex][K_{X,X}]_{i,j}=k(\mathbf{x}_i,\mathbf{x}_j)[/latex]

このような（自然言語で言うと、i行j列目の要素が右辺になるような）N次正方行列[latex]K_{X,X}[/latex]を求める。これを共分散行列という。

この共分散行列を求めていく中で、カーネル関数[latex]k[/latex]を最適化していくことが、学習にあたる。詳しく言うと、カーネル関数にパラメータ[latex]\mathbf{\theta}[/latex]があるとして、この[latex]\mathbf{\theta}[/latex]を最適化していくということ。

詳しいことは難解な数学の論証になるけども、どうやらこのカーネル関数の最適化は、ベイズディープニューラルネットワークの最適化と等価であることが証明できるらしい。

カーネル関数とはなんぞやというと、とりあえずは共分散行列を計算するための関数、と思っておけばとりあえずガウス過程回帰は使えるようにはなる。

厳密に言うとカーネル関数は特徴空間への写像[latex]\phi[/latex]を用いて

[latex]k(\mathbf{x},\mathbf{x}’)=\phi(\mathbf{x})^T\phi(\mathbf{x}’)[/latex]

というふうに定義されるけども、特徴空間への写像[latex]\phi[/latex]を考えるのをすっ飛ばして、[latex]k(\mathbf{x},\mathbf{x}’)[/latex]の設計だけ考えれば良い。

予測値

出力が未知な入力[latex]\mathbf{X}^*[/latex]をもとに出力の予測値[latex]\mathbf{f}^*[/latex]を求めたいとする。

このへんは決まりごとなのでささっと。

[latex][\mathbf{k}_{X,X^*}]_{i,j}=k(\mathbf{x}_i,\mathbf{x}_j^*)[/latex]

と

[latex][K_{X^*,X^*}]_{i,j}=k(\mathbf{x}_i^*,\mathbf{x}_j^*)[/latex]

を定義して、ノイズなしの関数形は以下の正規分布に従う。

[latex]\mathbf{f}^* \sim N(\mathbf{k}_{X,X^*}^T(K_{X,X}+\sigma^2I)^{-1}\mathbf{y},K_{X^*,X^*}-\mathbf{k}_{X,X^*}^T(K_{X,X}+\sigma^2I)^{-1} \mathbf{k}_{X,X^*})[/latex]