수정하기 - 머신러닝알고리즘: PCA와 t-SNE의 차이점은 무엇인가요?

닉네임

비밀번호

제목

내용 [이미지 업로드는 권한이 있는 사람만 가능. 하단 카톡으로 연락]

PCA(Principal Component Analysis)와 t-SNE(t-Distributed Stochastic Neighbor Embedding)는 둘 다 고차원 데이터를 저차원으로 축소해 시각화하거나 후속 분석에 활용하기 위한 기법이지만, 접근 방식과 목적, 특성이 크게 다릅니다. 아래에는 두 알고리즘의 주요 차이점을 글로 풀어서 설명합니다.    1. 목적과 최적화 기준    PCA는 데이터의 분산(variance)을 최대한 보존하는 선형 변환을 찾는 방법입니다. 공분산 행렬의 고유값 분해를 통해 분산이 큰 방향(주성분)을 찾아 데이터를 투영하고, 그 과정에서 정보 손실을 최소화합니다. 반면 t-SNE는 고차원 공간에서의 점간 유사도를 저차원 공간에서도 최대한 잘 유지하도록 확률 분포 사이의 차이를 최소화(KL divergence)하는 비선형 임베딩 기법입니다. 특히 국소(neighborhood) 유사성을 잘 보존해 클러스터나 군집 구조를 시각적으로 부각시키려는 데 초점을 둡니다.    2. 선형 vs. 비선형    PCA는 기본적으로 선형 기법입니다. 즉, 고차원 데이터를 저차원으로 투영할 때 직선(혹은 평면) 형태의 변환만 허용합니다. 따라서 데이터가 곡선 형태로 얽혀 있는 비선형 구조를 잘 풀어내지 못합니다. 반면 t-SNE는 비선형 구조 학습이 가능해 곡선이나 복잡한 매니폴드 구조를 가지고 있는 데이터에서도 국소적인 군집 관계를 살려서 저차원에 매핑할 수 있습니다.    3. 전역 구조 vs. 국소 구조 보존    PCA는 데이터 전체의 분산 구조, 즉 전역(global) 구조를 중시합니다. 주성분에 의해 전체 데이터가 최대 분산 방향으로 펼쳐지기 때문에 클러스터 간 거리나 전체적인 형태를 파악하기에 유리합니다. 그러나 작은 클러스터가 섞여 있거나 비선형 분포가 강하면 군집 구조를 명확히 드러내기 어렵습니다. 반면 t-SNE는 주로 각 점 주변의 근접 이웃 관계(local structure)를 보존합니다. 가까운 점들은 가깝게, 먼 점들은 멀리 배치되어 클러스터가 시각적으로 뚜렷하게 구분되는 효과가 크지만, 전역 구조(클러스터 간 대략적 간격)까지는 신뢰하기 어렵습니다.    4. 해석 가능성과 재현성    PCA는 각 주성분이 원본 변수들의 선형 결합이므로, 성분별로 기여도를 파악하거나 회귀분석, 변수 선택 등에서 바로 해석할 수 있습니다. 또한 알고리즘이 결정론적(deterministic)이어서 같은 데이터라면 항상 같은 결과를 내놓습니다. 반면 t-SNE는 초기화(random seed)나 하이퍼파라미터(perplexity, learning rate 등)에 따라 결과가 달라질 수 있고, 축의 의미 자체가 명확하지 않아 해석이 어렵습니다.    5. 계산 복잡도와 확장성    PCA는 공분산 행렬 계산과 고유값 분해가 핵심으로, 데이터 차원 D와 샘플 수 N이 모두 커질 때 O(min(N,D)·N·D) 정도의 계산 비용이 듭니다. 그러나 수치 선형대수 패키지나 <a href='https://sangseek.com/sangseeks/SVD/ko'>SVD</a> 기법을 활용하면 대규모에도 비교적 빠르게 처리 가능합니다. t-SNE는 모든 점 쌍 간 유사도를 계산하고 최적화를 위해 반복적인 경사 하강법을 수행하므로 기본적으로 O(N^2) 계산이 요구돼 샘플 수가 늘어날수록 속도가 급격히 느려집니다. 최근에는 Barnes–Hut 또는 <a href='https://sangseek.com/sangseeks/FFT/ko'>FFT</a> 기반 근사 버전으로 속도를 개선했지만 여전히 PCA보다 대규모 데이터 처리에는 부담이 큽니다.    6. 하이퍼파라미터와 튜닝    PCA는 주로 투영 차원 수(k)만 선택해 주면 되므로 하이퍼파라미터가 거의 없습니다. 반면 t-SNE는 ‘perplexity’(유효 이웃 수를 결정), 학습률(learning rate), 반복 횟수(iterations) 같은 여러 매개변수를 적절히 조정해야 좋은 시각화 결과를 얻을 수 있습니다. 이들 값에 따라 클러스터의 크기나 배치가 민감하게 달라질 수 있어 경험적인 튜닝이 필요합니다.    7. 실제 활용 예    – PCA: 차원 축소 전처리 단계, 노이즈 제거, 특성 추출, 회귀·분류 모델의 입력 축소, 유전자 데이터·이미지 압축 등    – t-SNE: 데이터 시각화를 통한 군집 탐색, 고차원 임베딩의 패턴 발견(예: 이미지·텍스트 임베딩), 비선형 구조를 가진 생물정보학 데이터 분석 등      정리하자면, PCA는 빠르고 해석 가능하며 전역 분산 구조를 보존하는 선형 기법으로 주로 전처리나 특성 추출에 쓰입니다. 반면 t-SNE는 비선형적인 국소 구조 보존에 강점이 있어 데이터 시각화, 클러스터 시각적 분리 등에 적합하지만, 해석이 어려우며 계산 비용과 하이퍼파라미터 튜닝 부담이 큽니다. 두 기법은 목적과 데이터 특성, 분석 목표에 맞춰 상호 보완적으로 사용될 수 있습니다.