상식닷컴
로그인
가입하기
2026년 상식닷컴 선정 식당 & 카페 리스트
2025년 2026년 신상 호텔 리스트
최근에 오픈한 호텔을 찾는다면 살펴보세요
일주일 식단표 어플
자동 일주일 식단표 어플
안드로이드
아이폰
주식 & 코인 차트의 신
1000만원으로 2000만원 만들기 프로젝트
궁금한 상식 보기
1억대출이자, 대출 사전 준비물은?
1억대출이자, 대출 신청 시 피해야 할 실수.
키오스크에서 사용자 개인정보 보호는 어떻게 이루어지나요?
키오스크가 스마트 시티에 기여할 수 있는 점은 어떤 것이 있나요?
식욕억제를 위한 7가지 한방 요법
영어작문에서 상징적 표현의 사용 예시는 무엇인가요?
10가지 빅데이터 활용 사례로 산업의 미래를 그리다
"해킹과 인공지능: 6가지 이유로 AI와 사이버 보안의 상관관계 이해하기"
"고객의 행복을 만드는 빅데이터 활용의 8가지 비법"
유산균의 종류는 어떤 것이 있나요?
유산균이 심리적 웰빙에 미치는 효과는?
음성인식AI의 오인식 문제를 해결하는 방법은?
Previous
Next
수정하기 - 머신러닝알고리즘: 군집화(clustering) 기법에는 어떤 것들이 있나요?
닉네임
비밀번호
제목
내용
[이미지 업로드는 권한이 있는 사람만 가능. 하단 카톡으로 연락]
머신러닝에서 군집화(clustering) 기법은 주어진 데이터의 레이블 없이 비슷한 특성을 지닌 샘플들끼리 묶어주는 비지도 학습 방법입니다. 대표적인 기법들을 크게 “중심 기반(centroid-based)”, “계층적(hierarchical)”, “밀도 기반(density-based)”, “모델 기반(model-based)”, “그래프 기반(graph-based)” 등으로 분류하고, 각 방법의 원리·장단점·응용 예시를 살펴보겠습니다. 1. 중심 기반 군집화 1) K-means • 원리: 사전에 정한 군집 수 K만큼 중심(centroid)을 초기화한 뒤, 각 샘플을 가장 가까운 중심에 할당(cluster assignment)하고, 그 다음 각 군집에 속한 샘플들의 평균 위치로 중심을 이동(update)하는 과정을 반복. • 장점: 구현과 계산이 비교적 간단하고, 대용량 데이터에도 빠르게 수렴. • 단점: K를 미리 알아야 하고, 구형(cluster가 구형이라 가정) 분포에만 잘 작동. 이상치에 민감하고, 초기 중심 선택에 따라 결과가 달라질 수 있음. 2) K-medoids (PAM, CLARA, CLARANS) • 원리: K-means가 군집의 대표점을 평균(centroid)으로 삼는 반면, K-medoids는 실제 데이터 포인트 중 하나를 대표(medoid)로 선택. PAM(Partitioning Around Medoids)은 소규모 데이터에, CLARA(CLustering LARge Applications)·CLARANS(CLustering Large Applications based upon RANdomized Search)는 대규모에도 적용 가능하도록 최적화를 꾀함. • 장점: 평균보다 실제 관측값을 대표점으로 삼아 이상치에 더 강건. • 단점: 계산 비용이 K-means보다 높고, 대규모에선 속도가 느릴 수 있음. 2. 계층적 군집화 계층적 접근은 데이터 샘플을 하나씩 또는 전체 <a href='https://sangseek.com/sangseeks/묶음/ko'>묶음</a>으로 접근해 병합(divisive)하거나 분할(agglomerative)하며 트리 구조(dendrogram)를 형성. 1) Agglomerative(병합형) • 원리: 처음에 각 샘플을 하나의 군집으로 시작해, 가장 유사도가 높은 두 군집을 반복적으로 합쳐 나감. 유사도는 single-linkage(최단거리), complete-linkage(최장거리), average-linkage(군집 내 모든 거리에 대한 평균), Ward’s method(분산 최소화) 등으로 측정. • 장점: 덴드로그램을 통해 다양한 K 값에 대응 가능한 유연성. • 단점: 샘플 수가 많아지면 메모리·시간 복잡도가 급격히 늘어나고, 초기 병합이 잘못되면 이후 수정이 어려움. 2) Divisive(분할형) • 원리: 전체 데이터를 하나의 군집으로 보고, 반복적으로 군집을 나누어 감. 연산 복잡도가 더 크기 때문에 실제 적용 빈도는 병합형보다 낮음. 3. 밀도 기반 군집화 데이터가 밀집한 영역을 군집으로 보고, 희박한 영역을 잡음(noise)으로 간주하는 방법들입니다. 1) DBSCAN (Density-Based Spatial Clustering of Applications with Noise) • 원리: ε 반경 내에 최소한 MinPts 개 이상의 샘플이 모여 있으면 core point로 보고, 이웃점을 확장(expand)하면서 군집을 형성. 경계점(border point), 노이즈(point)로 구분. • 장점: 비구형(non-convex) 분포에도 잘 작동하며, 노이즈를 자동 제외. • 단점: ε, MinPts 설정에 민감하고, 데이터 밀도가 지역마다 크게 다르면 잘 작동하지 않을 수 있음. 2) OPTICS (Ordering Points To Identify the Clustering Structure) • 원리: DBSCAN의 한계를 보완해, 다양한 밀도 레벨에서 클러스터 구조를 시각화(reachability plot)하고 사용자가 임계치를 선택할 수 있게 함. • 장점: 전역적 ε 값 없이도 다양한 <a href='https://sangseek.com/sangseeks/밀도 분포/ko'>밀도 분포</a>를 탐색. • 단점: 구현이 DBSCAN보다 복잡하고, 해석 과정을 요구. 3) DENCLUE (DENsity-based CLUstEring) • 원리: 커널 밀도 추정(kernel density estimation)으로 데이터 공간의 확률 밀도 함수를 모델링하고, 높은 밀도 경사(gradient ascent)를 따라 모드(mode)에 수렴시켜 군집화. • 장점: 수학적 이론이 명확하고, 매우 비구형 구조도 잡아낼 수 있음. • 단점: 커널 폭(bandwidth) 등 매개변수 설정이 까다롭고, 연산 비용이 높음. 4. 모델 기반 군집화 데이터가 특정 확률 분포를 따른다고 가정하고, 각 군집을 확률 <a href='https://sangseek.com/sangseeks/분포 모델/ko'>분포 모델</a>(예: 가우시안)로 표현합니다. 1) Gaussian Mixture Model (GMM) • 원리: 다중 컴포넌트 가우시안 혼합 모델로, EM(Expectation-Maximization) 알고리즘을 통해 각 샘플이 각 컴포넌트에 속할 확률(soft assignment)을 추정. • 장점: 군집 경계가 겹치거나 모호한 상황에서 부드러운 할당이 가능. • 단점: EM이 국소해(local <a href='https://sangseek.com/sangseeks/optimum/ko'>optimum</a>)에 빠질 수 있고, 컴포넌트 수를 미리 정해야 함. 2) <a href='https://sangseek.com/sangseeks/베이지안/ko'>베이지안</a> 혼합 모델 (Dirichlet Process Mixture) • 원리: 사전분포(prior)를 베이지안 기법으로 더 유연하게 설정해, 군집 수를 데이터가 스스로 결정하게 함(DPMM). • 장점: 사전에 군집 수를 고정하지 않아도 되고, 불확실성까지 추정 가능. • 단점: 추론 과정(MCMC, 변분 추론)이 느리고 구현이 복잡. 5. 그래프 기반 군집화 데이터 포인트를 그래프의 노드로, 유사도를 간선 가중치로 표현한 후, 그래프 분할(graph partitioning) 기법을 이용합니다. 1) Spectral Clustering • 원리: 유사도 행렬(similarity matrix)을 기반으로 그래프 라플라시안(Laplacian)을 구성하고, 그 고유벡터(eigenvector)를 이용해 <a href='https://sangseek.com/sangseeks/저차원/ko'>저차원</a> 공간으로 임베딩한 뒤 K-means 등을 적용. • 장점: 비구형, 복잡한 구조도 잘 분리하고, 전역 정보를 활용. • 단점: 그래프 행렬 고유분해 비용이 커서 대규모에는 부적합. 2) Markov Clustering (MCL) • 원리: 그래프에서 “확산(diffusion)” 과정을 시뮬레이션해, 자신 안에서 방문 확률이 높은 부분을 군집으로 추출. 주로 생물학적 네트워크 분석에 사용. 6. 기타 주요 기법들 1) Mean Shift • 원리: 각 점에 커널 윈도우를 씌워 고밀도 방향으로 반복 이동(shift)하면서 모드에 수렴시킨 후, 동일 모드로 수렴한 점들을 군집으로 취급. • 특징: K 값을 미리 알 필요 없고, 분포의 모양을 그대로 반영. 다만, 밀도 추정·커널 대역폭 선택이 민감하고 계산량이 큼. 2) BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) • 원리: 대용량 데이터를 CF 트리(Clustering Feature tree)에 요약(summary)하고, 부분 군집을 점진적으로 병합함으로써 메모리·시간을 절약. • 특징: 온라인·단일 패스로 대용량 처리에 적합하지만, 복잡한 비구형 구조 인식력은 다소 떨어질 수 있음. 3) Self-Organizing Map (SOM) • 원리: 신경망 기반으로 입력 벡터를 2차원 격자 구조에 매핑(mapping)하면서 군집화. 이웃 간 가중치 업데이트로 위상 정보를 보존. • 특징: 데이터 시각화·차원 축소 기능이 강력하지만, 학습률·격자 크기 등 하이퍼파라미터 튜닝이 까다로움. — 이처럼 군집화 기법은 데이터 분포와 형태, 규모, 노이즈 수준, 사전 지식(예: 군집 수) 유무 등에 따라 적절한 알고리즘을 선택해야 합니다. 간단한 구형 분포라면 K-means, 복잡한 구조라면 DBSCAN·Spectral Clustering, 대용량이라면 BIRCH, 소프트 할당이 필요하면 GMM, 사전 군집 수를 모르면 Mean Shift나 베이지안 혼합 모델 등을 적용해 볼 수 있습니다. 각 방법의 기본 가정과 비용(시간·메모리), 튜닝 포인트를 충분히 고려해 실험·평가하는 것이 중요합니다.
이용안내
커뮤니티 이용안내
×
- 게시한 게시글로 발생하는 문제는 게시자에게 책임이 있습니다.
- 게시글이 타인/타업체의 저작권을 침해할 경우 모든 책임은 게시자에게 있습니다. 게시자가 모든 손해를 부담해야 합니다.
- 상식닷컴 운영자는 게시자와 상의하지 않고 게시글을 수정 또는 삭제할 수 있습니다.
- 상식닷컴 운영자는 깨끗한 커뮤니티 공간을 만드는 것이 1순위입니다.
수정하기
취소하기