상식닷컴
로그인
가입하기
2026년 상식닷컴 선정 식당 & 카페 리스트
2025년 2026년 신상 호텔 리스트
최근에 오픈한 호텔을 찾는다면 살펴보세요
일주일 식단표 어플
자동 일주일 식단표 어플
안드로이드
아이폰
주식 & 코인 차트의 신
1000만원으로 2000만원 만들기 프로젝트
수정하기 - 머신러닝알고리즘: 데이터의 스케일링(scaling) 방법에는 어떤 것이 있나요?
닉네임
비밀번호
제목
내용
[이미지 업로드는 권한이 있는 사람만 가능. 하단 카톡으로 연락]
머신러닝에서 서로 다른 단위를 가지거나 분포 특성이 다른 특성(feature)들로 이루어진 데이터를 한꺼번에 다룰 때, 스케일링(정규화·표준화)은 매우 중요한 전처리 과정입니다. 대표적인 스케일링 방법들을 하나씩 살펴보겠습니다. 1. Min–Max Scaling (최소–최대 정규화) 이 방법은 각 <a href='https://sangseek.com/sangseeks/특성값/ko'>특성값</a>을 0과 1 사이(또는 원하는 범위 a와 b 사이)로 압축합니다. • 변환식: x_scaled = (x – x_min) / (x_max – x_min) • 장점 – 계산이 단순하고 직관적이며, 변환 후 값이 지정된 범위를 벗어나지 않음 – 신경망이나 거리 기반 알고리즘(KNN, K-means)에서 자주 사용 • 단점 – 이상치(outlier)에 민감하여, x_min 또는 x_max가 극단값이면 다른 정상값들이 좁게 분포 2. Standardization (Z-score 정규화) 평균을 0, 분산을 1로 맞추어 표준 정규분포 형태로 변환합니다. • 변환식: x_scaled = (x – μ) / σ (μ: 특성의 평균, σ: 표준편차) • 장점 – 이상치의 영향이 Min–Max보다 덜하며, 정규분포를 가정하는 모델에 적합 – 선형 회귀, 로지스틱 회귀, SVM, PCA 등에서 흔히 사용 • 단점 – 특성이 정규분포에 가깝지 않을 경우 왜곡이 발생할 수 있음 3. Robust Scaling (중앙값·IQR 기반 정규화) 중앙값(median)과 IQR(inter-quartile range, 1사분위와 3사분위 차이)을 이용해 스케일링합니다. • 변환식: x_scaled = (x – median) / IQR • 장점 – 이상치에 매우 강건(robust) – 중앙값·사분위수를 사용하므로 데이터 분포가 치우쳐 있거나 극단치를 포함할 때 유용 • 단점 – 사분위 범위 밖의 값들에 대한 세밀한 구분력이 떨어질 수 있음 4. Max-Abs Scaling 각 특성값을 절대값 최댓값(abs(maximum))으로 나누어 –1과 1 사이로 압축합니다. • 변환식: x_scaled = x / |x_max| • 장점 – 희소 행렬(sparse matrix)을 그대로 유지하면서 스케일링 가능 – 특성의 부호(sign)를 보존 • 단점 – 이상치가 최댓값을 왜곡하면 전체 스케일이 잘못될 수 있음 5. Unit Vector Normalization (벡터 정규화) 샘플(행) 하나를 하나의 벡터로 보고, 그 길이(norm)를 1로 맞춥니다. 주로 텍스트 처리에서 TF-IDF 벡터에 사용됩니다. • 변환식 (L2 노름 기준): x_scaled = x / ||x||₂ • 장점 – 피처 간 상대적 비율을 유지하면서 벡터 크기를 통일 – 코사인 유사도 계산 시 유용 • 단점 – 개별 특성의 스케일 조정이 아님 (샘플 단위 정규화) 6. Log Transformation (로그 변환) 양수 값을 갖는 특성에 대해 로그를 취해 분포를 덜 치우치게 만듭니다. • 변환식: x_scaled = log(x + ε) (ε: 0일 때 –∞ 방지용 작은 값) • 장점 – 양의 비율 변화를 강조하고, 긴 꼬리를 가진 분포를 압축 – 지수적 성장 패턴을 완만하게 조정 • 단점 – 0 또는 음수 값 처리 시 추가 조치 필요 7. Power Transformation (거듭제곱 변환) 데이터가 정규분포에 가깝도록 만드는 변환 계수(λ)를 찾아서 적용합니다. 대표적으로 Box-Cox(양수 전용)와 Yeo–Johnson(음수 포함 허용) 방법이 있습니다. • Box-Cox 변환식 (x>0): x_scaled = (x^λ – 1) / λ (λ ≠ 0) x_scaled = log(x) (λ = 0) • Yeo–Johnson 변환식 (x∈ℝ 가능) – x ≥ 0: ( (x+1)^λ – 1 ) / λ – x < 0: –( (–x+1)^(2–λ) – 1 ) / (2–λ) • 장점 – 분포를 정규화하려는 목적에 최적화된 λ를 자동 추정 – 선형 모델, ANOVA, PCA 전처리에 도움 • 단점 – 변환 후 해석이 다소 복잡할 수 있음 – 계산 비용이 다른 기법보다 큼 8. Quantile Transformation (분위수 변환) 데이터의 분위수(quantile)에 대응하는 값으로 변환하여 지정된 분포(예: 균등분포, 정규분포)에 맵핑합니다. • 과정 1) 각 샘플의 분위수(rank)를 계산 2) 목표 분포의 누적분포함수(CDF)에 대응시켜 값 할당 • 장점 – 분포 왜곡을 최대한 제거하며, 이상치 영향 최소화 – 균등 분포나 표준 정규분포로의 매핑 가능 • 단점 – 데이터마다 순위 기반 변환이므로 상관관계 구조가 일부 훼손될 수 있음 – 변환된 값 사이에 동일 분위수인 경우 동점(tie) 처리 고려 9. Winsorization (윈저화) 극단값을 상·하위 특정 분위수(예: 1%, 99%) 값으로 대체하여 스케일링 전 이상치 제거 효과를 줍니다. • 장점 – 이상치가 극단적으로 큰 경우에도 분포 왜곡을 줄여줌 • 단점 – 극단값 자체의 의미를 일부 손실 10. 특징별 조합 사용 실제 프로젝트에서는 위 방법들을 단일로 사용하기보다, 특성의 분포나 이상치 여부, 모델 요구사항에 따라 적절히 조합해 사용합니다. 예를 들어 – 숫자형 특성 중 일부는 Min–Max, 일부는 Robust Scaling – 로그 변환 후에 Standardization – 희소성이 중요한 텍스트 데이터는 Max-Abs 또는 Unit Vector 정규화 각 스케일링 방법은 데이터 분포, <a href='https://sangseek.com/sangseeks/모델 특성/ko'>모델 특성</a>, 이상치 유무, 해석 용이성 등을 종합적으로 고려해 선택해야 합니다. 실험(experiment)과 교차검증(cross-validation)을 통해 가장 성능이 좋은 전처리 조합을 찾아내는 것이 핵심입니다.
이용안내
커뮤니티 이용안내
×
- 게시한 게시글로 발생하는 문제는 게시자에게 책임이 있습니다.
- 게시글이 타인/타업체의 저작권을 침해할 경우 모든 책임은 게시자에게 있습니다. 게시자가 모든 손해를 부담해야 합니다.
- 상식닷컴 운영자는 게시자와 상의하지 않고 게시글을 수정 또는 삭제할 수 있습니다.
- 상식닷컴 운영자는 깨끗한 커뮤니티 공간을 만드는 것이 1순위입니다.
수정하기
취소하기