상식닷컴
로그인
가입하기
2026년 상식닷컴 선정 식당 & 카페 리스트
2025년 2026년 신상 호텔 리스트
최근에 오픈한 호텔을 찾는다면 살펴보세요
일주일 식단표 어플
자동 일주일 식단표 어플
안드로이드
아이폰
주식 & 코인 차트의 신
1000만원으로 2000만원 만들기 프로젝트
궁금한 상식 보기
주식 차트의 시사점: 과거와 현재 연결하기
미국주식 매수 매도 전략: 경제 지표 이해하기
미국주식 매수 매도 전략의 장기적 전망
미국주식 매수 매도: 월별 패턴 분석
미국주식 매수 매도 전략: 소액 투자자로서의 접근
실업급여와 창업 지원: 내 사업 시작하기
실업급여와 창의력 발휘하기
실업급여와 커리어 변화: 새로운 길 찾기
"주식 장기투자과 직장인 재테크: 알뜰한 투자노하우"
"주식 장기투자, 시나리오 분석으로 불확실성 극복하기"
"주식 장기투자, 필수 앱 및 웹사이트 소개"
해외 주식에 투자할 때 고려해야 할 점은?
Previous
Next
수정하기 - 머신러닝알고리즘: k-최근접 이웃 알고리즘의 작동 방식은 무엇인가요?
닉네임
비밀번호
제목
내용
[이미지 업로드는 권한이 있는 사람만 가능. 하단 카톡으로 연락]
k-최근접 이웃(k-Nearest Neighbors, kNN) 알고리즘은 지도학습의 한 방법으로, 학습 단계에서 별도의 모델을 생성하거나 파라미터를 최적화하지 않고 단순히 훈련 데이터를 그대로 저장해 두었다가, 새로운 데이터가 들어오면 저장된 데이터와의 거리를 계산하여 결과를 예측합니다. 이 때문에 kNN을 ‘게으른 학습(lazy learning)’ 알고리즘이라고도 부릅니다. 첫째, 기본 아이디어는 “비슷한 데이터일수록 비슷한 결과를 가진다”는 가정입니다. 예를 들어 꽃의 종류를 구분하고 싶다면, 꽃잎 길이·너비 같은 특성(feature)을 이용해 이미 라벨(품종)이 붙은 꽃 샘플을 저장해 두고, 새로운 꽃 샘플이 들어오면 저장된 샘플들과의 거리를 비교하여 가장 가까운 k개의 데이터를 찾아냅니다. 둘째, 거리 계산 방식은 대개 유클리드 거리(Euclidean distance)를 많이 쓰지만, 맨해튼 거리(Manhattan distance)나 민코프스키 거리(Minkowski distance) 등도 활용할 수 있습니다. 이 거리를 계산할 때는 각 특성의 단위나 분포 차이가 결과에 크게 영향을 주므로, 사전에 표준화(Standardization)나 정규화(Normalization) 과정을 거쳐 특성별 스케일을 맞추는 것이 중요합니다. 셋째, k개의 이웃을 고른 뒤 결과를 결정하는 방식은 분류(classification)와 회귀(regression) 문제에서 다릅니다. - 분류 문제에서는 k개 이웃 중 가장 많이 등장한 클래스(다수결)를 예측값으로 삼습니다. - 회귀 문제에서는 k개 이웃의 타깃 값(연속형 값)을 단순 평균하거나, 거리의 역수를 가중치로 주어 가중 평균하는 방법을 씁니다. 넷째, k 값의 선택은 모델 성능에 결정적 영향을 미칩니다. - k가 너무 작으면(예: k=1) 모델이 주변 소수 이웃에 과도하게 민감해져 잡음에 취약해지고 과적합(overfitting)이 생깁니다. - k가 너무 크면(예: 데이터 전체 크기와 비슷) 주변 이웃뿐 아니라 멀리 있는 점들의 영향까지 받게 되어 경계가 지나치게 부드러워지면서 과소적합(underfitting)이 발생할 수 있습니다. 보통 교차검증(cross-validation)을 통해 최적의 k를 찾습니다. 다섯째, 예측 단계에서 매번 훈련 데이터 전체와 거리를 비교해야 하므로, 데이터가 많아지면 시간이 오래 걸리고 메모리 사용량도 증가합니다. 이를 보완하기 위해 KD-트리·Ball-트리 같은 공간 분할 자료구조를 사용하거나, 근사 최근접 이웃(Approximate Nearest Neighbor) 탐색 기법을 적용하기도 합니다. 마지막으로, kNN의 장단점을 정리하면 다음과 같습니다. 장점: - 구현이 쉽고 이해하기 직관적이다. - 새로운 데이터가 들어올 때 기존 학습 모델을 다시 학습할 필요가 없다. 단점: - 예측 속도가 느리고 메모리 소모가 크다. - 고차원 데이터에서는 거리 계산이 무의미해지기 쉬운 ‘차원의 저주(curse of dimensionality)’ 문제에 취약하다. - 특성 스케일에 민감하므로 전처리 작업이 반드시 필요하다. 이처럼 k-최근접 이웃 알고리즘은 단순하지만 데이터의 구조나 분포를 잘 반영할 수 있고, 작은 규모의 문제에서는 충분히 강력하게 쓸 수 있는 유용한 방법입니다. 새로운 문제에 적용할 때는 k 값, 거리 척도, 특성 전처리, 자료구조 등에 유의하여 성능을 최적화해야 합니다.
이용안내
커뮤니티 이용안내
×
- 게시한 게시글로 발생하는 문제는 게시자에게 책임이 있습니다.
- 게시글이 타인/타업체의 저작권을 침해할 경우 모든 책임은 게시자에게 있습니다. 게시자가 모든 손해를 부담해야 합니다.
- 상식닷컴 운영자는 게시자와 상의하지 않고 게시글을 수정 또는 삭제할 수 있습니다.
- 상식닷컴 운영자는 깨끗한 커뮤니티 공간을 만드는 것이 1순위입니다.
수정하기
취소하기