12 Gaussian Process

Gaussian Process는 회귀(Regression) 문제를 풀기 위한 Bayesian 기반 방법론이다.

Kernel Regression (Non-Parametric, Non-Bayes)	GP Regression (Non-Parametric, Bayes)

일반적으로 regression은 점 추정(unknown x에 대한 y 값이 무엇일까?)이다. 그런데 GP는 점 추정이 아닌 구간 추정(y가 취할 수 있는 값의 확률 분포)에 해당하는 개념이다.

f (x) = \sum_{i = 1}^{N} w_{i} (x) y_{i}

w_{i} (x) ≜ \frac{κ_{h} (x - x_{i})}{\sum_{j = 1}^{N} κ_{h} (x - x_{j})}

함수의 분포를 알기 때문에, 예측 값의 confidence를 구할 수 있다.

12.1 Gaussian Distribution

Gaussian Distribution(정규 분포)을 복습해 보자.

X ~ 𝒩 (μ, Σ)

Gaussian distribution

평균 값에서 거리가 멀어질수록 확률이 줄고, 이에 대한 분산( 공분산 행렬 $Σ$ )이 존재한다. Gaussian distribution의 확률 밀도 함수(PDF)는 다음과 같다.

f (x) = \frac{1}{(2 π)^{m / 2} | | Σ | |^{1 / 2}} \exp (- \frac{1}{2} (x - μ) Σ^{- 1} (x - μ)^{T})

Notes: Covariance

공분산은 두 개의 축(변수) X, Y 사이의 관계를 나타내는 척도로, XY의 평균 - X의 평균 * Y의 평균으로 정의한다.

$c o v (X, Y) = σ_{X Y}^{2} = E (X Y) - μ_{X} μ_{Y}$

$= E [(X - μ_{X}) (Y - μ_{Y})] = \frac{1}{2} \sum_{i = 1}^{n} (X_{i} - μ_{X}) (Y_{i} - μ_{Y})$

이렇게 모든 축에 대한 공분산을 행렬로 묶은 것이 covariance matrix(공분산 행렬)이다.

$σ_{i, j} = σ_{X_{i}, X_{j}}$ 이며, $σ_{i, j} = σ_{j, i}$ 과 같이 대칭 행렬이다.

Σ = [\begin{matrix} σ_{1, 1}^{2} & σ_{1, 2}^{2} & \dots & σ_{1, k}^{2} \\ σ_{2, 1}^{2} & σ_{2, 2}^{2} & \dots & σ_{2, k}^{2} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ σ_{k, 1}^{2} & σ_{k, 2}^{2} & \dots & σ_{k, k}^{2} \end{matrix}]

(첫 번째 축, 첫 번째 축), (첫 번째 축, 두 번째 축), ..., (첫 번째 축, k번째 축) 이후 (두 번째 축, 첫 번째 축), (두 번째 축, 두 번째 축), ..., (두 번째 축, k번째 축), ...

12.1.1 Covariance Matrix

다음은 다양한 모양의 공분산 행렬을 나타낸 예시다.

Gaussian shape

원 모양(diagonal)

Σ = [\begin{matrix} σ^{2} & 0 & \dots & 0 \\ 0 & σ^{2} & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & σ^{2} \end{matrix}]

타원 모양(diagonal)

Σ = [\begin{matrix} σ_{1, 1}^{2} & 0 & \dots & 0 \\ 0 & σ_{2, 2}^{2} & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & σ_{k, k}^{2} \end{matrix}]

회전한 타원 모양

Σ = [\begin{matrix} σ_{1, 1}^{2} & σ_{1, 2}^{2} & \dots & σ_{1, k}^{2} \\ σ_{2, 1}^{2} & σ_{2, 2}^{2} & \dots & σ_{2, k}^{2} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ σ_{k, 1}^{2} & σ_{k, 2}^{2} & \dots & σ_{k, k}^{2} \end{matrix}]

이때 공분산은 correlation과 관련이 있지만, 언제나 관계가 성립하지는 않는다. ('normalized covariance가 correlation이다'로 기억하자.)

다음은 $Y_{A}, Y_{B}$ 두 축을 갖는 Gaussian distribution 예시다. 평균과 공분산 행렬은 다음과 같다.

(\begin{matrix} Y_{A} \\ Y_{B} \end{matrix}) ~ 𝒩 ((\begin{matrix} μ_{A} \\ μ_{B} \end{matrix}), (\begin{matrix} K_{A A} & K_{A B} \\ K_{B A} & K_{B B} \end{matrix}))

이러한 분포를 바탕으로 구간 추정, 즉 regression과 유사한 작업이 가능하다.

예를 들면, $Y_{A}$ 가 a라는 값을 가질 때, $Y_{B}$ 는 어떤 값을 가질지 예측할 수 있다.

covariance correlation

파란색: $Y_{B}$ 가 존재할 수 있는 구간 (단, 확률적인 구간이기 때문에 바깥에 점이 있을 수도 있다)

이처럼 주어진 Gaussian distribution이 있을 때 $Y_{A}$ 값을 알고 있다면, $P (Y_{B} | Y_{A})$ 는 Gaussian distribution이다.

P (Y_{B} | Y_{A}) = 𝒩 (μ, Σ)

μ = μ_{B} + K_{B A} {K_{A A}}^{- 1} (Y_{A} - μ_{A})

Σ = K_{B B} - K_{B A} {K_{A A}}^{- 1} K_{A B}

12.2 Gaussian Process

어떠한 함수 $y = f (x)$ 가 있지만 해당 함수를 모른다고 하자. 이때 $x_{1}$ 일 때 $y_{1}$ , $x_{2}$ 일 때 $y_{2}$ , $x_{3}$ 일 때 $y_{3}$ 은 관측하였다.

GP example

linear regression와 같은 다양한 회귀 기법을 통해 함수를 추정할 수 있다. 지금은 Gaussian Process(GP)를 통해 함수를 추정해 볼 것이다.

GP 추정을 위해 다음을 먼저 가정해야 한다.

$(y_{1}, y_{2}, y_{3}, y)$ 가 Gaussian distribution을 따른다.
평균과 공분산 행렬을 안다.
평균: 일반적으로 0으로 가정( $y_{1}$ 의 평균도 0, $y_{2}$ 의 평균도 0, $y_{3}$ 의 평균도 0, $y$ 의 평균도 0 )
공분산: $x_{1}$ 과 $x_{2}$ 가 가까워질수록 $f (x_{1})$ 과 $f (x_{2})$ 공분산은 커지고, 멀어질수록 작아진다고 가정

(위 가정에 부합하는 함수를 정의하여 공분산으로 사용한다.)

\exp (- \frac{| | x_{1} - x_{2} | |_{2}^{2}}{l^{2}})

$y$ 값이 random variable이며 임의의 모든 값을 가지므로, 평균을 0으로 가정하는 것은 타당하다.

12.2.1 Example 1

f (1) = 3, f (3) = 1

일 때, $f (2)$

를 추정해야 한다.

gp example 2

이를 $y_{1} = 3, y_{2} = 1$ 로 두고 $y$ 를 추정할 것이다. 평균과 공분산 행렬은 다음과 같다.

(\begin{matrix} y_{1} \\ y_{2} \\ y \end{matrix}) = 𝒩 ((\begin{matrix} 0 \\ 0 \\ 0 \end{matrix}), (\begin{matrix} 1 & e^{- 4} & e^{- 1} \\ e^{- 4} & 1 & e^{- 1} \\ e^{- 1} & e^{- 1} & 1 \end{matrix}))

구하고 싶은 값은 $P (y | y_{1} = 3, y_{2} = 1) = 𝒩 (μ, Σ)$ 이다.

μ = (\begin{matrix} 0 \end{matrix}) + (\begin{matrix} e^{- 1} & e^{- 1} \end{matrix}) (^{\begin{matrix} 1 & e^{- 4} \\ e^{- 4} & 1 \end{matrix}) - 1} (\begin{matrix} 3 - 0 \\ 1 - 0 \end{matrix}) = 1.445

Σ = 1 - (\begin{matrix} e^{- 1} & e^{- 1} \end{matrix}) (^{\begin{matrix} 1 & e^{- 4} \\ e^{- 4} & 1 \end{matrix}) - 1} (\begin{matrix} e^{- 1} \\ e^{- 1} \end{matrix}) = 0.734

즉, 평균으로 약 1.4를 갖는 Gaussian 함수로 추정한 것이다.

gp example 3

12.2.2 Example 2

더 많은 지점의 값을 알수록 $f (x)$ 를 보다 잘 추정할 수 있다.

gp example 4

gp example 5

빨간색: 원래 함수, 검은 점: 관측한 값, 회색 영역: GP가 추정한 함수가 존재할 수 있는 범위

주의해야 할 점은 covariance 함수로, 해당 함수가 바뀌면 추정하는 함수도 달라지게 된다. (사용자가 잘 선택해야 한다.)

12.3 Summary

GP는 joint Gaussian distribution으로 정의되며, $y_{1}, y_{2}, \dots, y_{n}$ 이 Gaussian distribution을 따른다고 가정한다.

Given Training Data $D = {(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{N}, y_{N})}$
Test Data $D_{*} = {(α_{1}, β_{1}), (α_{2}, β_{2}), \dots, (α_{N_{*}}, β_{N_{*}})}$

이때 평균이 0이며 분산에 대한 함수는 kernel $κ$ 로 주어진다고 하면, Posterior Gaussian Process를 정의할 수 있다.

Assumption

(\begin{matrix} Y \\ Y_{*} \end{matrix}) ~ 𝒩 ((\begin{matrix} 0 \\ 0 \end{matrix}), (\begin{matrix} κ (X, X) & κ (X, X_{*}) \\ κ (X_{*}, X) & κ (X_{*}, X_{*}) \end{matrix}))

Posterior GP

P (Y_{*} | Y, X, Y) = 𝒩 (μ_{*}, Σ_{*})

μ_{*} = κ (X_{*}, X) κ (X, X)^{- 1} Y

Σ_{*} = κ (X_{*}, X_{*}) - κ (X_{*}, X) κ (X, X)^{- 1} κ (X, X_{*})