수정하기 - 머신러닝알고리즘: 군집화(clustering) 기법에는 어떤 것들이 있나요?

닉네임

비밀번호

제목

내용 [이미지 업로드는 권한이 있는 사람만 가능. 하단 카톡으로 연락]

머신러닝에서 군집화(clustering) 기법은 주어진 데이터의 레이블 없이 비슷한 특성을 지닌 샘플들끼리 묶어주는 비지도 학습 방법입니다. 대표적인 기법들을 크게 “중심 기반(centroid-based)”, “계층적(hierarchical)”, “밀도 기반(density-based)”, “모델 기반(model-based)”, “그래프 기반(graph-based)” 등으로 분류하고, 각 방법의 원리·장단점·응용 예시를 살펴보겠습니다.      1. 중심 기반 군집화      1) K-means        • 원리: 사전에 정한 군집 수 K만큼 중심(centroid)을 초기화한 뒤, 각 샘플을 가장 가까운 중심에 할당(cluster assignment)하고, 그 다음 각 군집에 속한 샘플들의 평균 위치로 중심을 이동(update)하는 과정을 반복.        • 장점: 구현과 계산이 비교적 간단하고, 대용량 데이터에도 빠르게 수렴.        • 단점: K를 미리 알아야 하고, 구형(cluster가 구형이라 가정) 분포에만 잘 작동. 이상치에 민감하고, 초기 중심 선택에 따라 결과가 달라질 수 있음.        2) K-medoids (PAM, CLARA, CLARANS)        • 원리: K-means가 군집의 대표점을 평균(centroid)으로 삼는 반면, K-medoids는 실제 데이터 포인트 중 하나를 대표(medoid)로 선택. PAM(Partitioning Around Medoids)은 소규모 데이터에, CLARA(CLustering LARge Applications)·CLARANS(CLustering Large Applications based upon RANdomized Search)는 대규모에도 적용 가능하도록 최적화를 꾀함.        • 장점: 평균보다 실제 관측값을 대표점으로 삼아 이상치에 더 강건.        • 단점: 계산 비용이 K-means보다 높고, 대규모에선 속도가 느릴 수 있음.      2. 계층적 군집화      계층적 접근은 데이터 샘플을 하나씩 또는 전체 <a href='https://sangseek.com/sangseeks/묶음/ko'>묶음</a>으로 접근해 병합(divisive)하거나 분할(agglomerative)하며 트리 구조(dendrogram)를 형성.        1) Agglomerative(병합형)        • 원리: 처음에 각 샘플을 하나의 군집으로 시작해, 가장 유사도가 높은 두 군집을 반복적으로 합쳐 나감. 유사도는 single-linkage(최단거리), complete-linkage(최장거리), average-linkage(군집 내 모든 거리에 대한 평균), Ward’s method(분산 최소화) 등으로 측정.        • 장점: 덴드로그램을 통해 다양한 K 값에 대응 가능한 유연성.        • 단점: 샘플 수가 많아지면 메모리·시간 복잡도가 급격히 늘어나고, 초기 병합이 잘못되면 이후 수정이 어려움.        2) Divisive(분할형)        • 원리: 전체 데이터를 하나의 군집으로 보고, 반복적으로 군집을 나누어 감. 연산 복잡도가 더 크기 때문에 실제 적용 빈도는 병합형보다 낮음.      3. 밀도 기반 군집화      데이터가 밀집한 영역을 군집으로 보고, 희박한 영역을 잡음(noise)으로 간주하는 방법들입니다.        1) DBSCAN (Density-Based Spatial Clustering of Applications with Noise)        • 원리: ε 반경 내에 최소한 MinPts 개 이상의 샘플이 모여 있으면 core point로 보고, 이웃점을 확장(expand)하면서 군집을 형성. 경계점(border point), 노이즈(point)로 구분.        • 장점: 비구형(non-convex) 분포에도 잘 작동하며, 노이즈를 자동 제외.        • 단점: ε, MinPts 설정에 민감하고, 데이터 밀도가 지역마다 크게 다르면 잘 작동하지 않을 수 있음.        2) OPTICS (Ordering Points To Identify the Clustering Structure)        • 원리: DBSCAN의 한계를 보완해, 다양한 밀도 레벨에서 클러스터 구조를 시각화(reachability plot)하고 사용자가 임계치를 선택할 수 있게 함.        • 장점: 전역적 ε 값 없이도 다양한 <a href='https://sangseek.com/sangseeks/밀도 분포/ko'>밀도 분포</a>를 탐색.        • 단점: 구현이 DBSCAN보다 복잡하고, 해석 과정을 요구.        3) DENCLUE (DENsity-based CLUstEring)        • 원리: 커널 밀도 추정(kernel density estimation)으로 데이터 공간의 확률 밀도 함수를 모델링하고, 높은 밀도 경사(gradient ascent)를 따라 모드(mode)에 수렴시켜 군집화.        • 장점: 수학적 이론이 명확하고, 매우 비구형 구조도 잡아낼 수 있음.        • 단점: 커널 폭(bandwidth) 등 매개변수 설정이 까다롭고, 연산 비용이 높음.      4. 모델 기반 군집화      데이터가 특정 확률 분포를 따른다고 가정하고, 각 군집을 확률 <a href='https://sangseek.com/sangseeks/분포 모델/ko'>분포 모델</a>(예: 가우시안)로 표현합니다.        1) Gaussian Mixture Model (GMM)        • 원리: 다중 컴포넌트 가우시안 혼합 모델로, EM(Expectation-Maximization) 알고리즘을 통해 각 샘플이 각 컴포넌트에 속할 확률(soft assignment)을 추정.        • 장점: 군집 경계가 겹치거나 모호한 상황에서 부드러운 할당이 가능.        • 단점: EM이 국소해(local <a href='https://sangseek.com/sangseeks/optimum/ko'>optimum</a>)에 빠질 수 있고, 컴포넌트 수를 미리 정해야 함.        2) <a href='https://sangseek.com/sangseeks/베이지안/ko'>베이지안</a> 혼합 모델 (Dirichlet Process Mixture)        • 원리: 사전분포(prior)를 베이지안 기법으로 더 유연하게 설정해, 군집 수를 데이터가 스스로 결정하게 함(DPMM).        • 장점: 사전에 군집 수를 고정하지 않아도 되고, 불확실성까지 추정 가능.        • 단점: 추론 과정(MCMC, 변분 추론)이 느리고 구현이 복잡.      5. 그래프 기반 군집화      데이터 포인트를 그래프의 노드로, 유사도를 간선 가중치로 표현한 후, 그래프 분할(graph partitioning) 기법을 이용합니다.        1) Spectral Clustering        • 원리: 유사도 행렬(similarity matrix)을 기반으로 그래프 라플라시안(Laplacian)을 구성하고, 그 고유벡터(eigenvector)를 이용해 <a href='https://sangseek.com/sangseeks/저차원/ko'>저차원</a> 공간으로 임베딩한 뒤 K-means 등을 적용.        • 장점: 비구형, 복잡한 구조도 잘 분리하고, 전역 정보를 활용.        • 단점: 그래프 행렬 고유분해 비용이 커서 대규모에는 부적합.        2) Markov Clustering (MCL)        • 원리: 그래프에서 “확산(diffusion)” 과정을 시뮬레이션해, 자신 안에서 방문 확률이 높은 부분을 군집으로 추출. 주로 생물학적 네트워크 분석에 사용.      6. 기타 주요 기법들      1) Mean Shift        • 원리: 각 점에 커널 윈도우를 씌워 고밀도 방향으로 반복 이동(shift)하면서 모드에 수렴시킨 후, 동일 모드로 수렴한 점들을 군집으로 취급.        • 특징: K 값을 미리 알 필요 없고, 분포의 모양을 그대로 반영. 다만, 밀도 추정·커널 대역폭 선택이 민감하고 계산량이 큼.        2) BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)        • 원리: 대용량 데이터를 CF 트리(Clustering Feature tree)에 요약(summary)하고, 부분 군집을 점진적으로 병합함으로써 메모리·시간을 절약.        • 특징: 온라인·단일 패스로 대용량 처리에 적합하지만, 복잡한 비구형 구조 인식력은 다소 떨어질 수 있음.        3) Self-Organizing Map (SOM)        • 원리: 신경망 기반으로 입력 벡터를 2차원 격자 구조에 매핑(mapping)하면서 군집화. 이웃 간 가중치 업데이트로 위상 정보를 보존.        • 특징: 데이터 시각화·차원 축소 기능이 강력하지만, 학습률·격자 크기 등 하이퍼파라미터 튜닝이 까다로움.      —    이처럼 군집화 기법은 데이터 분포와 형태, 규모, 노이즈 수준, 사전 지식(예: 군집 수) 유무 등에 따라 적절한 알고리즘을 선택해야 합니다. 간단한 구형 분포라면 K-means, 복잡한 구조라면 DBSCAN·Spectral Clustering, 대용량이라면 BIRCH, 소프트 할당이 필요하면 GMM, 사전 군집 수를 모르면 Mean Shift나 베이지안 혼합 모델 등을 적용해 볼 수 있습니다. 각 방법의 기본 가정과 비용(시간·메모리), 튜닝 포인트를 충분히 고려해 실험·평가하는 것이 중요합니다.