14 Gaussian Mixture Model

14.2 Expectation-Maximization Algorithm

Expectation-Maximization(EM) 알고리즘은 확률을 optimize, maximize하는 데 많이 사용되며, hidden variable이 존재하는 상황에서 maximum likelihood를 구할 때 사용한다.

예를 들어, 어떤 함수를 최대화하고 싶다면 EM 알고리즘을 사용할 수 있다. (gradient ascend와 매우 유사)

다음 $F (x)$ 목적함수에서 maximum을 찾고 싶다고 하자. 2번과 3번 과정을 반복하며 최대값을 찾을 수 있다. (주의: local optimum에 해당)


	1. 임의의 point $θ^{t}$ 선택
	2. 세 조건을 만족하는 함수 $f^{t} (θ)$ 생성 - 위로 볼록(convex upper) - $F (θ) \geq f^{t} (θ)$ for all $θ$ - $F (θ^{t}) = f^{t} (θ^{t})$
	3. $f^{t}$ 를 maximize하는 $θ^{t + 1}$ 선택 ( $\arg max f^{t} (θ)$ )

$F (θ^{t + 1}) \geq F (θ^{t})$

2번 풀이: 목적함수 F보다 항상 같거나 작은데, $θ^{t}$ 에서의 값은 F와 같다.

14.3 Background: Jensen's Inequality

Jensen's Inequality는 위로 볼록한 함수(convex function)에서 성립하는 부등식이다.

Jenson inequality

$f (x)$ 가 위로 볼록할 경우

λ f (x) + (1 - λ) f (y) \leq f (λ x + (1 - λ) y), λ \in [0, 1]

이는 다음과 같이 일반화할 수 있다.

\sum_{i = 1}^{n} λ_{i} f (x_{i}) \leq f (\sum_{i = 1}^{n} λ_{i} x_{i}), \sum_{i = 1}^{n} λ_{i} = 1, λ_{i} \geq 0

모두 합산했을 때 1이 되는 $λ$ 를 $p (x)$ 로 바꿔치면, 이를 확률로 해석할 수 있다.

\sum_{i}^{n} p (x_{i}) f (x_{i}) \leq f (\sum_{i}^{n} p (x_{i}) x_{i})

$f (x)$ 의 평균은, $x$ 의 평균을 $f$ 에 넣은 값보다 작거나 같다.

14.3.1 Logarithm and Jensen's Inequality

로그 함수 역시 위로 볼록한 함수이므로, Jensen's Inequality가 성립한다.

\sum_{i = 1}^{n} p (x_{i}) \log (x_{i}) \leq \log (\sum_{i = 1}^{n} p (x_{i}) x_{i})

log Jenson inequality

이때, $x_{i}$ 대신 양수인 함수 $f$ 를 넣어도 성립한다.

\sum_{x} p (x) \log f (x) \leq \log \sum_{x} p (x) f (x)

14.3.2 Likelihood with Hidden Variable

앞서 유도한 수식을 바탕으로 likelihood를 계산해 보자.

L (θ) = \log p (x | θ) f o r g i v e n x

= \log \sum_{z \in Z} p (x, z | θ) p (z | θ)

바게트 잘라먹기 적용. ( $z$ : hidden variables )

= \log \sum_{z \in Z} [p (x | z, θ) p (z | θ) \frac{p (z | x, θ^{t})}{p (z | x, θ^{t})}]

위 수식에서 내가 random하게 고른 $θ^{t}$ 를 대입하면, $p (z | x, θ^{t})$ 는 상수가 된다. (즉, 분수 부분이 1이 된다.)

식에 Jensen's Inequality를 적용하면 다음과 같다. (우변을 $l^{t} (θ)$ 로 정의)

\geq \sum_{z \in Z} [p (z | x, θ^{t}) \cdot \log (\frac{p (x | z, θ) p (z | θ)}{p (z | x, θ^{t})})] = l^{t} (θ)

이제 $l^{t}$ 를 상세하게 분석해 보자. ( $L (θ^{t}) = l^{t} (θ^{t})$ 증명 )

l^{t} (θ^{t}) = \sum_{z \in Z} [p (z | x, θ^{t}) \cdot \log (\frac{p (x | z, θ^{t}) p (z | θ^{t})}{p (z | x, θ^{t})})]

= \sum_{z \in Z} [p (z | x, θ^{t}) \cdot \log (\frac{\frac{p (x, z | θ^{t})}{p (z | θ^{t})} p (z | θ^{t})}{p (z | x, θ^{t})})]

= \sum_{z \in Z} [p (z | x, θ^{t}) \cdot \log p (x, z | θ^{t})]

= \log p (x | θ^{t}) \sum_{z \in Z} p (z | x, θ^{t}) = p (x | θ^{t})

= L (θ^{t})

결국 앞에서 말한 3가지 조건을 모두 만족한다.

14.4 Maximize Likelihood

이제 likelihood를 maximize하는 $θ$ 를 찾는 문제로 돌아가 보자.

\arg {max}_{θ} L (θ)

EM Algorithm을 적용하면 다음과 같다.

EM algorithm

build up 부분을 Expectation step (E-step), argmax 부분을 Maximization step (M-step) 라고 지칭한다.

이때 식은 다음과 같이 정리할 수 있었다.

\arg {max}_{θ} \sum_{z \in Z} [p (z | x, θ^{t}) \cdot \log p (x, z | θ)]

14.5 GMM by EM Algorithm

이제 실제 GMM에 어떻게 적용되는지 살펴보자.

주어진 데이터 $X = {x_{1}, x_{2}, \dots, x_{n}}$
Gaussian $G = {g_{1}, g_{2}, \dots, g_{k}}$
Hidden $Z = {z_{1}, z_{2}, \dots, z_{n}}$

k

개의 Gaussian의 평균과 분산을 찾는 것이 목적이다. 이는 찾고 싶은 평균과 분산을 $θ$

로 정의한 뒤, EM 알고리즘을 적용하면 된다.

$θ = {θ_{1}, θ_{2}, \dots, θ_{k}} = {(μ_{1}, Σ_{1}, π_{1}), (μ_{2}, Σ_{2}, π_{2}), \dots, (μ_{k}, Σ_{k}, π_{k})}$

GMM by EM

최종적으로 Maximization step에서 다음 문제를 풀이하면 된다.

θ^{t + 1} = \arg {max}_{θ} \sum_{i = 1}^{n} \sum_{y = 1}^{k} (\frac{π_{y}^{t} \cdot p (x_{k}, θ_{y}^{t})}{\sum_{j = 1}^{k} π_{j}^{t} \cdot p (x_{k}, θ_{j}^{t})}) \cdot \log (π_{y} \cdot p (x_{k}, θ_{y}))

w i t h a c o n s t r a i n t \sum_{y = 1}^{k} π_{y} = 1

이는 $π_{y} = 1$ 조건을 만족할 때 argmax 해를 찾는 것으로, constrained optimization, SVM에서 본 문제와 유사하다.

위 식은 Lagrange multiplier를 통해 쉽게 풀이할 수 있다. 해의 형태는 다음과 같다.

μ_{i}^{t + 1} = \frac{\sum_{k = 1}^{n} p (z_{k} = i | x_{k}, θ^{t}) \cdot x_{k}}{\sum_{k = 1}^{n} p (z_{k} = i | x_{k}, θ^{t})}

Σ_{i}^{t + 1} = \frac{\sum_{k = 1}^{n} p (z_{k} = i | x_{k}, θ^{t}) \cdot (x_{k} - μ_{i}^{t + 1}) • (x_{k} - μ_{i}^{t + 1})^{T}}{\sum_{k = 1}^{n} p (z_{k} = i | x_{k}, θ^{t})}

π_{i}^{t + 1} = \frac{1}{n} \sum_{j = 1}^{n} p (z_{j} = i | x_{j}, θ^{t})

Note: $p (z_{i} = y | x_{i}, θ^{t})$ 는 E-step에서 계산한 값이다.

$p (z_{i} = y | x_{i}, θ^{t}) = \frac{p (x_{i} | θ_{y}^{t}) \cdot π_{y}^{t}}{\sum_{y = 1}^{k} π_{y}^{t} \cdot p (x_{i} | θ_{y}^{t})}$