Branch Log · Open in interactive viewer →

Section 2: The History of Voice Identity Techniques

2.1 What about voices?

voice는 마치 지문처럼 사람마다 모두 다른 특징을 갖는다.(voiceprint) 게다가 같은 사람이 동일한 단어/음소를 발음하더라도 상황에 따라 다르게 발음할 수 있다.(variation)

게다가 human reading은 다음과 같은 어려움이 있기 때문에, algorithm을 이용한 voice identification의 필요성이 대두되었다.


2.2 Earliest algorithm: Pattern matching

human reading에서 영감을 받아 spectrogram을 이용한 pattern matching 방법이 제시되었다.

pattern matching

위 spectrogram을 행렬 $A$ , 아래 spectrogram을 행렬 $B$ 라고 하자. 이 둘을 비교하는 수식은 다음과 같다.

$$ ||A - B||_{2} $$

$$ \mathrm{corr}(A, B) $$

단, 다음과 같은 전제조건(prerequisite)가 필요하다.


2.2.1 Limitations of pattern matching

그러나 데이터가 서로 다른 speaking rate를 가지고 있다면 align할 수 없다. 따라서 이러한 문제를 해결하기 위해 per-segment matching이 등장했다.

per-segment matching


2.3 Early Statistical Methods

pattern matching은 variations을 고려하지 못한다. 다양한 요소에 의해 같은 단어라도 variation이 생길 수 있다.

recording devices, ambient noise, emotions, utterance(발화) 등

따라서 이러한 variation을 고려할 수 있도록 statistical methods가 등장했다.


2.3.1 Gaussian Mixture Models(GMM)

Gaussian Mixture Models(GMM)은 Deep Learning이 등장하기 전 제일 보편적으로 쓰인 statistical model이다.

Speacker Recognition만이 아니라, Computer Vision, Speech Recognition 등 다양한 분야에서 쓰였다.

Speaker Recognition에서 시대별로 dominant model을 살펴보면, 1995-2006:GMM / 2007-2013: Factor analysis / 현재: Joint Factor Analysis(JFA), i-vector

GMM

게다가 이러한 Gaussian distribution은 단순할 뿐더러, complex distribution을 simple Gaussian distribution의 합으로 근사할 수 있다는 장점이 있다.

GMM의 변형도 여러가지가 존재하는데 대표적으로는 두 가지가 있다.


2.4 Deep Learning

GMM이 complex functions을 simple Gaussian distribution의 합으로 근사하는 것처럼, NN은 complex functions를 simple function(neuron)의 합으로 근사한다.

특히 speech signal(sequence data)에 있어서 Recurrent Neural Network(RNN)은 굉장히 효과적이다.

big data에 더 효과적이며 GPU, TPU 등의 발전으로 더욱 효율적으로 학습할 수 있게 되었다는 배경도 있다.

다음은 Speaker Recognition에서 대표적인 모델을 시대에 따라 정리한 것이다.


2.5 Summary

history of voice-id