상식닷컴
로그인
가입하기
2026년 상식닷컴 선정 식당 & 카페 리스트
2025년 2026년 신상 호텔 리스트
최근에 오픈한 호텔을 찾는다면 살펴보세요
일주일 식단표 어플
자동 일주일 식단표 어플
안드로이드
아이폰
주식 & 코인 차트의 신
1000만원으로 2000만원 만들기 프로젝트
궁금한 상식 보기
오징어의 매력을 찾고 싶은 분들께 6가지 조언
저축의 시작: 성공적인 계획을 세우는 5가지 요령
저축이 가져다주는 발전의 5가지 단계
저축으로 당신의 삶을 변화시키는 5가지 경험
고혈압, 가족력 체크리스트 5가지
연봉 1억, 전문직이 아닌 이들도 도전하는 5가지 이유
연봉 1억, 직장에서 인정받는 10가지 행동
두바이에서 즐기는 최고의 아침식사 7곳
육아를 더 즐겁게 만드는 10가지 비결
육아의 의미를 다시 찾기 위한 7가지 질문
구글 번역으로 영어를 배우는 6가지 방법!
영어로 독서를 시작하는 5가지 방법!
Previous
Next
수정하기 - 머신러닝알고리즘: PCA(Principal Component Analysis)의 원리는 무엇인가요?
닉네임
비밀번호
제목
내용
[이미지 업로드는 권한이 있는 사람만 가능. 하단 카톡으로 연락]
PCA(Principal Component Analysis, 주성분 분석)는 고차원 데이터를 저차원 공간으로 변환하면서 정보의 손실을 최소화하고, 데이터 분산(variance)이 가장 크게 나타나는 방향을 찾아내는 기법입니다. 주로 차원 축소(dimensionality reduction), 시각화, 노이즈 제거, 특징 추출(feature extraction) 등에 활용됩니다. PCA의 원리를 단계별로 자세히 살펴보면 다음과 같습니다. 1. 데이터 중심화(Centering) 원본 데이터 행렬 X (크기: n×d, n은 샘플 수, d는 특성 수)가 주어지면, 먼저 각 특성(feature)의 평균을 0으로 맞추기 위해 중심화합니다. xi′ = xi − μ, 여기서 μ는 d차원 평균 벡터입니다. 중심화를 통해 PCA 과정에서 평균 편향(mean bias)을 제거하고, 공분산 계산이 의미를 갖도록 만듭니다. 2. 공분산 행렬(Covariance Matrix) 계산 중심화된 데이터 X′에 대해 공분산 행렬 Σ를 구합니다. Σ = (1/(n−1)) · (X′)ᵀ X′ Σ는 d×d 대칭 행렬로, 각 원소 Σij는 특성 i와 특성 j 간의 공분산을 나타냅니다. 3. 고유값 분해(Eigendecomposition) 공분산 행렬 Σ를 고유값 분해하여 고유값(eigenvalue) λ1 ≥ λ2 ≥ … ≥ λd 와 대응하는 고유벡터(eigenvector) v1, v2, …, vd 를 얻습니다. Σ v = λ v 고유값은 각 방향(즉, 해당 고유벡터 방향)의 데이터 분산 크기를 의미하며, 고유벡터는 분산이 커지는 직교(orthogonal) 방향을 나타냅니다. 4. 주성분(Principal Components) 선택 고유값을 크기 순으로 정렬한 뒤 상위 k개의 고유벡터 {v1, …, vk}를 선택합니다. 이 고유벡터들은 데이터의 분산을 최대한 보존하면서 저차원 공간을 형성하는 축(axis)이 됩니다. k를 선택할 때는 전체 분산에서 차지하는 비율(예: 누적 분산 비율)을 기준으로 결정할 수 있습니다. 5. 차원 축소(Projection) 중심화된 데이터 X′를 선택된 k개의 고유벡터 행렬 Vk (d×k)로 투영(projection)하여 차원을 축소합니다. Z = X′ · Vk 결과 행렬 Z (크기: n×k)는 각 샘플이 k차원 공간에 표현된 좌표이며, 이 공간에서 최대한 원래 데이터의 분산을 유지합니다. 6. 수치적 구현: SVD 방식 공분산 행렬을 직접 계산하는 대신, 특이값 분해(Singular Value Decomposition; SVD) 기법을 이용해 X′ = U Σₓ Vᵀ 형태로 분해할 수도 있습니다. 이때 V의 열벡터가 공분산 행렬의 고유벡터와 일치하며, Σₓ의 값들은 공분산 행렬의 고유값과 관련됩니다. SVD를 사용하면 수치적 안정성이 높고 차원이 매우 큰 데이터에도 효율적으로 적용 가능합니다. 7. 해석과 활용 각 주성분의 고유값은 그 축이 설명하는 분산량을 나타내므로, 고유값 비율을 통해 차원 축소 후에도 데이터 특성이 얼마나 유지되는지 평가할 수 있습니다. 또한 주성분을 통해 얻은 저차원 표현은 노이즈가 줄어들고 계산 비용이 절감되어, 이후 분류나 군집화 같은 머신러닝 알고리즘의 입력으로 활용하기에 적합합니다. 요약하자면, PCA는 데이터의 공분산 구조를 고유값 분해 또는 SVD를 통해 분석하고, 분산이 가장 큰 방향을 따라 직교적 축을 정한 뒤 그 축으로 데이터를 투영하여 차원을 축소하는 기법입니다. 이 과정을 통해 데이터의 정보(분산)를 최대한 보존하면서도 불필요한 차원을 제거할 수 있습니다.
이용안내
커뮤니티 이용안내
×
- 게시한 게시글로 발생하는 문제는 게시자에게 책임이 있습니다.
- 게시글이 타인/타업체의 저작권을 침해할 경우 모든 책임은 게시자에게 있습니다. 게시자가 모든 손해를 부담해야 합니다.
- 상식닷컴 운영자는 게시자와 상의하지 않고 게시글을 수정 또는 삭제할 수 있습니다.
- 상식닷컴 운영자는 깨끗한 커뮤니티 공간을 만드는 것이 1순위입니다.
수정하기
취소하기