수정하기 - 음성데이터에서 특징 추출의 과정은?

닉네임

비밀번호

제목

내용 [이미지 업로드는 권한이 있는 사람만 가능. 하단 카톡으로 연락]

음성 데이터를 머신러닝이나 딥러닝 모델에 투입하기 전에 사람이 듣기 어렵거나 모델이 바로 처리하기 힘든 원시 파형(raw waveform)에서 유의미한 정보를 뽑아내는 과정을 ‘특징 추출(feature extraction)’이라 합니다. 아래에는 음성 신호로부터 가장 널리 쓰이는 MFCC(Mel-Frequency Cepstral Coefficients)를 예로 들어, 전처리부터 최종 특징 벡터 생성까지의 전 과정을 단계별로 상세히 설명합니다.    1. 아날로그→디지털 변환       • 마이크로 입력된 음성 신호는 아날로그 파형입니다. 이를 디지털 처리하려면 샘플링(sampling)과 양자화(quantization)를 거쳐야 합니다.       • 보통 음성 처리에서는 8kHz, 16kHz, 때로는 44.1kHz 등의 샘플링 주파수를 사용하며, 16비트 또는 32비트 정밀도로 양자화합니다.       • 이 단계에서 샘플링 주파수를 너무 낮게 잡으면 고주파 정보가 손실되고, 너무 높게 잡으면 연산량만 불필요하게 늘어납니다.    2. 전처리(Pre-emphasis)       • 음성 신호는 일반적으로 저주파 성분이 강하고 고주파 성분이 약합니다.       • 전처리 필터(예: y[n] = x[n] – α·x[n–1], α≈0.95)를 적용해 고주파 대역을 강조함으로써, 후속 스펙트럼 분석에서 음소 간 변별력을 높입니다.       • 이 과정을 ‘프리엠퍼시스(pre-emphasis)’라고 합니다.    3. 음성 구간 검출(Voice Activity Detection, VAD) 및 잡음 제거       • 유효 음성 부분(voice activity)을 검출해 침묵 구간(silence)이나 배경 잡음을 걸러냅니다.       • 에너지 기반, 스펙트럼 기반, 또는 딥러닝 기반 VAD 기법을 쓸 수 있습니다.       • 필요하면 노이즈 제거(예: 스펙트럴 게이팅, Wiener 필터 등)를 추가로 수행합니다.    4. 프레이밍(Framing) 및 윈도잉(Windowing)       • 음성은 시간에 따라 변하는 비정상 신호(non–stationary)지만, 짧은 구간(보통 20~30ms) 내에서는 ‘준정상 신호(quasi-stationary)’로 간주할 수 있습니다.       • 따라서 전체 파형을 20~30ms 길이의 프레임으로 자르고, 이웃 프레임끼리는 10ms 정도 겹치게(<a href='https://sangseek.com/sangseeks/오버랩/ko'>오버랩</a>) 배치합니다.       • 각 프레임에 해밍 창(Hamming window)·한닝 창(Hanning window) 등을 곱해 경계에서의 불연속성을 줄입니다.    5. 주파수 도메인 변환(FFT)       • 각 윈도잉된 프레임에 대해 고속 푸리에 변환(FFT)을 수행해 복소수 스펙트럼을 얻습니다.       • 보통 256~512점 FFT를 사용하며, 그 결과로 얻은 복소수의 크기를 제곱해 파워 스펙트럼(power spectrum)을 계산합니다.    6. 멜 필터 뱅크(Mel Filter Bank)       • 인간의 청각은 저주파에는 민감하지만, 고주파 대역에서는 점점 민감도가 떨어지는 특성을 보입니다.       • 이를 모방하기 위해 주파수 축을 선형·비선형 혼합 로그축인 ‘멜 스케일(Mel scale)’로 변환합니다.       • 파워 스펙트럼 상에서 멜 필터(삼각형 모양의 대역 통과 필터)를 보통 20~40개 정도 적용해, 각 필터가 커버하는 주파수 대역의 에너지 합을 구합니다.    7. 로그 압축(Logarithm)       • 멜 필터 뱅크 출력을 그대로 쓰면 분포가 치우쳐 있고 동적 범위가 큽니다.       • 로그 함수를 취해(dynamic range compression) 분포를 정규화하고, 인간 청각의 비선형 크기 지각 특성을 모사합니다.    8. 켑스트럼 변환(Cepstrum via DCT)       • 로그 스펙트럼은 주파수 성분 간 상호 의존성이 남아 있어 벡터 간 상관관계가 높습니다.       • 이를 완화하기 위해 1차원 이산 코사인 변환(DCT)을 취하면 멜-켑스트럼 계수(MFCC)가 생성됩니다.       • 보통 상위 12~13개 계수만 취하고, 나머지는 버립니다(차원 축소 및 잡음 제거).    9. 델타·델타델타(Delta, Delta-Delta)       • 음성은 시간적 변화가 중요한 정보이므로, 정적(static) MFCC뿐 아니라 1차 차분(델타)·2차 차분(델타델타)을 추가로 계산해 벡터에 결합합니다.       • 최종 특징 벡터는 보통 [static MFCC ∥ delta ∥ delta-delta] 형태로 구성되어, 차원이 36~39 정도가 됩니다.    10. 정규화(Normalization)       • 화자나 채널 환경에 따른 분포 차이를 줄이기 위해 평균-분산 정규화(cepstral mean and variance normalization, CMVN)를 적용합니다.       • 또는 화자나 세션별로 zero-mean을 맞추거나, 음절 단위로 Cepstral Mean Subtraction(CMS)만 하는 방식도 있습니다.    11. 추가 옵션       • PLP(Perceptual Linear Prediction): 멜 스케일 대신 Bark 스케일을 쓰고, 인간의 등청감 곡선(equal-loudness contour)과 강도-지각 변환(power-law) 등을 본뜨는 기법입니다.       • 스펙트로그래밍(spectrogram) 또는 멜 스펙트로그램(mel-spectrogram)을 그대로 사용해 CNN에 입력하거나, 원시 파형을 신경망에 투입해 자동으로 특징을 학습하는 end-to-end 접근도 늘고 있습니다.       • i-vector, x-vector, d-vector 같은 고차원 표현은 화자 인식·화자 분리·화자 임베딩에 주로 활용됩니다.    요약하자면, 음성 특징 추출은      1) 시간-주파수 분석을 위한 프레이밍과 윈도잉,      2) 주파수 도메인 변환과 인간 청각 모델을 반영한 필터 뱅크,      3) 로그·DCT 변환으로 얻어지는 켑스트럼 계수,      4) 동적 특성(델타) 및 정규화 단계    를 거치며, 이를 통해 모델이 음성의 음소·화자·감정 등 다양한 정보를 효과적으로 학습할 수 있는 저차원 특징 벡터를 얻게 됩니다.