상식닷컴
로그인
가입하기
2026년 상식닷컴 선정 식당 & 카페 리스트
2025년 2026년 신상 호텔 리스트
최근에 오픈한 호텔을 찾는다면 살펴보세요
일주일 식단표 어플
자동 일주일 식단표 어플
안드로이드
아이폰
주식 & 코인 차트의 신
1000만원으로 2000만원 만들기 프로젝트
궁금한 상식 보기
도토리의 단점은 무엇인가요?
도토리를 주제로 한 그림은 어떤 것들이 있나요?
그린망고는 어떤 분위기에서 먹기 좋은가요?
생태계교란종의 변화를 관찰하기 위한 장기 모니터링은 어떤가요?
초콜릿과 관련된 과학적인 연구는 어떤 것이 있나요?
장미는 어떻게 재배하나요?
장미의 가지치기는 왜 중요한가요?
장미를 이용한 수제 비누의 제조 과정은 어떻게 되나요?
장미 및 관련 작업의 최신 트렌드는 무엇인가요?
선글라스의 렌즈 종류는 어떤 것들이 있나요?
선글라스의 고객 맞춤 제작 가능한 서비스는 있는지 궁금합니다.
블루라이트가 인지 능력에 미치는 영향은 어떤가요?
Previous
Next
수정하기 - 머신러닝알고리즘: PCA와 t-SNE의 차이점은 무엇인가요?
닉네임
비밀번호
제목
내용
[이미지 업로드는 권한이 있는 사람만 가능. 하단 카톡으로 연락]
PCA(Principal Component Analysis)와 t-SNE(t-Distributed Stochastic Neighbor Embedding)는 둘 다 고차원 데이터를 저차원으로 축소해 시각화하거나 후속 분석에 활용하기 위한 기법이지만, 접근 방식과 목적, 특성이 크게 다릅니다. 아래에는 두 알고리즘의 주요 차이점을 글로 풀어서 설명합니다. 1. 목적과 최적화 기준 PCA는 데이터의 분산(variance)을 최대한 보존하는 선형 변환을 찾는 방법입니다. 공분산 행렬의 고유값 분해를 통해 분산이 큰 방향(주성분)을 찾아 데이터를 투영하고, 그 과정에서 정보 손실을 최소화합니다. 반면 t-SNE는 고차원 공간에서의 점간 유사도를 저차원 공간에서도 최대한 잘 유지하도록 확률 분포 사이의 차이를 최소화(KL divergence)하는 비선형 임베딩 기법입니다. 특히 국소(neighborhood) 유사성을 잘 보존해 클러스터나 군집 구조를 시각적으로 부각시키려는 데 초점을 둡니다. 2. 선형 vs. 비선형 PCA는 기본적으로 선형 기법입니다. 즉, 고차원 데이터를 저차원으로 투영할 때 직선(혹은 평면) 형태의 변환만 허용합니다. 따라서 데이터가 곡선 형태로 얽혀 있는 비선형 구조를 잘 풀어내지 못합니다. 반면 t-SNE는 비선형 구조 학습이 가능해 곡선이나 복잡한 매니폴드 구조를 가지고 있는 데이터에서도 국소적인 군집 관계를 살려서 저차원에 매핑할 수 있습니다. 3. 전역 구조 vs. 국소 구조 보존 PCA는 데이터 전체의 분산 구조, 즉 전역(global) 구조를 중시합니다. 주성분에 의해 전체 데이터가 최대 분산 방향으로 펼쳐지기 때문에 클러스터 간 거리나 전체적인 형태를 파악하기에 유리합니다. 그러나 작은 클러스터가 섞여 있거나 비선형 분포가 강하면 군집 구조를 명확히 드러내기 어렵습니다. 반면 t-SNE는 주로 각 점 주변의 근접 이웃 관계(local structure)를 보존합니다. 가까운 점들은 가깝게, 먼 점들은 멀리 배치되어 클러스터가 시각적으로 뚜렷하게 구분되는 효과가 크지만, 전역 구조(클러스터 간 대략적 간격)까지는 신뢰하기 어렵습니다. 4. 해석 가능성과 재현성 PCA는 각 주성분이 원본 변수들의 선형 결합이므로, 성분별로 기여도를 파악하거나 회귀분석, 변수 선택 등에서 바로 해석할 수 있습니다. 또한 알고리즘이 결정론적(deterministic)이어서 같은 데이터라면 항상 같은 결과를 내놓습니다. 반면 t-SNE는 초기화(random seed)나 하이퍼파라미터(perplexity, learning rate 등)에 따라 결과가 달라질 수 있고, 축의 의미 자체가 명확하지 않아 해석이 어렵습니다. 5. 계산 복잡도와 확장성 PCA는 공분산 행렬 계산과 고유값 분해가 핵심으로, 데이터 차원 D와 샘플 수 N이 모두 커질 때 O(min(N,D)·N·D) 정도의 계산 비용이 듭니다. 그러나 수치 선형대수 패키지나 <a href='https://sangseek.com/sangseeks/SVD/ko'>SVD</a> 기법을 활용하면 대규모에도 비교적 빠르게 처리 가능합니다. t-SNE는 모든 점 쌍 간 유사도를 계산하고 최적화를 위해 반복적인 경사 하강법을 수행하므로 기본적으로 O(N^2) 계산이 요구돼 샘플 수가 늘어날수록 속도가 급격히 느려집니다. 최근에는 Barnes–Hut 또는 <a href='https://sangseek.com/sangseeks/FFT/ko'>FFT</a> 기반 근사 버전으로 속도를 개선했지만 여전히 PCA보다 대규모 데이터 처리에는 부담이 큽니다. 6. 하이퍼파라미터와 튜닝 PCA는 주로 투영 차원 수(k)만 선택해 주면 되므로 하이퍼파라미터가 거의 없습니다. 반면 t-SNE는 ‘perplexity’(유효 이웃 수를 결정), 학습률(learning rate), 반복 횟수(iterations) 같은 여러 매개변수를 적절히 조정해야 좋은 시각화 결과를 얻을 수 있습니다. 이들 값에 따라 클러스터의 크기나 배치가 민감하게 달라질 수 있어 경험적인 튜닝이 필요합니다. 7. 실제 활용 예 – PCA: 차원 축소 전처리 단계, 노이즈 제거, 특성 추출, 회귀·분류 모델의 입력 축소, 유전자 데이터·이미지 압축 등 – t-SNE: 데이터 시각화를 통한 군집 탐색, 고차원 임베딩의 패턴 발견(예: 이미지·텍스트 임베딩), 비선형 구조를 가진 생물정보학 데이터 분석 등 정리하자면, PCA는 빠르고 해석 가능하며 전역 분산 구조를 보존하는 선형 기법으로 주로 전처리나 특성 추출에 쓰입니다. 반면 t-SNE는 비선형적인 국소 구조 보존에 강점이 있어 데이터 시각화, 클러스터 시각적 분리 등에 적합하지만, 해석이 어려우며 계산 비용과 하이퍼파라미터 튜닝 부담이 큽니다. 두 기법은 목적과 데이터 특성, 분석 목표에 맞춰 상호 보완적으로 사용될 수 있습니다.
이용안내
커뮤니티 이용안내
×
- 게시한 게시글로 발생하는 문제는 게시자에게 책임이 있습니다.
- 게시글이 타인/타업체의 저작권을 침해할 경우 모든 책임은 게시자에게 있습니다. 게시자가 모든 손해를 부담해야 합니다.
- 상식닷컴 운영자는 게시자와 상의하지 않고 게시글을 수정 또는 삭제할 수 있습니다.
- 상식닷컴 운영자는 깨끗한 커뮤니티 공간을 만드는 것이 1순위입니다.
수정하기
취소하기