13 Matrix Factorization by Optimization

GPU를 활용한 병렬화가 용이하다.

13.4 Matrix Factorization Formulation

어떤 행렬 $R$ 을, 두 개의 행렬 곱( $R^{'} = U \times V$ )으로 근사하는 기법을 Matrix Factorization이라고 한다.

오차 (주로 경사 하강법으로 최적화)

E (U, V) = \sum_{m, n} (R_{m n} - R_{m n}^{'})^{2}

matrix example

오차를 최소화할 때, 일반적으로 기계 학습의 regularization 항을 추가한다.

$U$ , $V$ 가 최대한 희소하도록 정규화

\underset{U, V}{\arg min} E (U, V) = \sum_{m, n} (R_{m n} - R_{m n}^{'})^{2} + λ (\sum_{m, p} U_{m p}^{2} + \sum_{p, n} V_{p n}^{2})

Linear Algebra로 표현하면 다음과 같다. (L2 norm)

$\underset{U, V}{\arg min} E (U, V) = | | R - R^{'} | |_{F}^{2} + λ (| | U | |_{F}^{2} + | | V | |_{F}^{2})$

13.4.1 Solve with Gradient Descent

경사 하강법을 사용하여 $U$ 와 $V$ 를 업데이트할 수 있다.

**Algorithm**

*for t = 1 to infinite* {

*for all m and p*,

U_{m p}^{t + 1} = U_{m p}^{t} - λ {(\frac{\partial E (U, V)}{\partial U_{m p}})}_{U m p = U^{t} m p}

*for all p and n*,

V_{p n}^{t + 1} = V_{p n}^{t} - λ {(\frac{\partial E (U, V)}{\partial V_{p n}})}_{V p n = V^{t} p n}

}

13.5 Matrix Factorization Variations

기본 형태는 다음과 같다.

R을 근사하는 $U$ , $V$ 탐색

r_{u, i} \approx u_{u} • v_{i}

다음은 학습 파라미터 $b_{u}, b_{i}$ (bias)를 포함하는 variation이다.

예를 들어, 영화 점수를 사람별로 매긴 행렬이 있다면, 사람 A행 B행 C행마다 bias가 다르게 존재해야 한다.

다음을 근사하는 $P$ , $Q$ 탐색

r_{u, i} \approx μ + b_{u} + b_{i} + p_{u} • q_{i}

다음을 근사하는 (평균 $μ$ 를 제외한) $b_{u}$ , $b_{i}$ , $p_{u}$ , $q_{i}$ 탐색

r_{u, i} \approx μ + b_{u} + b_{i} + p_{u} • q_{i}

예를 들어 마지막 수식의 target function은 다음과 같다.

{min}_{b_{*}, p_{*}, q_{*}} \sum_{(u, i) \in ℛ} (r_{u, i} - (μ + b_{u} + b_{i} + p_{u} • q_{i}))^{2} + λ (b_{u}^{2} + b_{i}^{2} + | | p_{u} | |^{2} + | | q_{i} | |^{2})

Notes: 미분 수식

$b_{u} \leftarrow b_{u} + η (e_{u, i} - λ b_{u})$

$b_{i} \leftarrow b_{i} + η (e_{u, i} - λ b_{i})$

$p_{u} \leftarrow p_{u} + η (e_{u, i} \cdot p_{u} - λ q_{i})$

$q_{i} \leftarrow q_{i} + η (e_{u, i} \cdot q_{i} - λ p_{u})$

13.5.1 Collective Matrix Factorization

다음은 주로 추천 도메인에서 사용하는 collective matrix factorization의 예시다.

어떤 유저가 영화를 고르는 선호도와, TV 채널을 고르는 선호도는 유사할 것이다.

matrix example 2

두 데이터에서, user factor $X$ 를 공유하는 조건으로 손실 함수를 modeling한다.

L (X, Y, Z) = \frac{1}{2} | | I_{1} \circ (A - X Y^{T}) | |_{F}^{2} + \frac{α}{2} \circ | | B - X Z^{T} | |_{F}^{2} + \frac{β}{2} (| | X | |_{F}^{2} + | | Y | |_{F}^{2} + | | Z | |_{F}^{2})