수정하기 - 머신러닝알고리즘: 데이터의 스케일링(scaling) 방법에는 어떤 것이 있나요?

닉네임

비밀번호

제목

내용 [이미지 업로드는 권한이 있는 사람만 가능. 하단 카톡으로 연락]

머신러닝에서 서로 다른 단위를 가지거나 분포 특성이 다른 특성(feature)들로 이루어진 데이터를 한꺼번에 다룰 때, 스케일링(정규화·표준화)은 매우 중요한 전처리 과정입니다. 대표적인 스케일링 방법들을 하나씩 살펴보겠습니다.      1. Min–Max Scaling (최소–최대 정규화)       이 방법은 각 <a href='https://sangseek.com/sangseeks/특성값/ko'>특성값</a>을 0과 1 사이(또는 원하는 범위 a와 b 사이)로 압축합니다.       • 변환식:         x_scaled = (x – x_min) / (x_max – x_min)       • 장점         – 계산이 단순하고 직관적이며, 변환 후 값이 지정된 범위를 벗어나지 않음         – 신경망이나 거리 기반 알고리즘(KNN, K-means)에서 자주 사용       • 단점         – 이상치(outlier)에 민감하여, x_min 또는 x_max가 극단값이면 다른 정상값들이 좁게 분포      2. Standardization (Z-score 정규화)       평균을 0, 분산을 1로 맞추어 표준 정규분포 형태로 변환합니다.       • 변환식:         x_scaled = (x – μ) / σ         (μ: 특성의 평균, σ: 표준편차)       • 장점         – 이상치의 영향이 Min–Max보다 덜하며, 정규분포를 가정하는 모델에 적합         – 선형 회귀, 로지스틱 회귀, SVM, PCA 등에서 흔히 사용       • 단점         – 특성이 정규분포에 가깝지 않을 경우 왜곡이 발생할 수 있음      3. Robust Scaling (중앙값·IQR 기반 정규화)       중앙값(median)과 IQR(inter-quartile range, 1사분위와 3사분위 차이)을 이용해 스케일링합니다.       • 변환식:         x_scaled = (x – median) / IQR       • 장점         – 이상치에 매우 강건(robust)         – 중앙값·사분위수를 사용하므로 데이터 분포가 치우쳐 있거나 극단치를 포함할 때 유용       • 단점         – 사분위 범위 밖의 값들에 대한 세밀한 구분력이 떨어질 수 있음      4. Max-Abs Scaling       각 특성값을 절대값 최댓값(abs(maximum))으로 나누어 –1과 1 사이로 압축합니다.       • 변환식:         x_scaled = x / |x_max|       • 장점         – 희소 행렬(sparse matrix)을 그대로 유지하면서 스케일링 가능         – 특성의 부호(sign)를 보존       • 단점         – 이상치가 최댓값을 왜곡하면 전체 스케일이 잘못될 수 있음      5. Unit Vector Normalization (벡터 정규화)       샘플(행) 하나를 하나의 벡터로 보고, 그 길이(norm)를 1로 맞춥니다. 주로 텍스트 처리에서 TF-IDF 벡터에 사용됩니다.       • 변환식 (L2 노름 기준):         x_scaled = x / ||x||₂       • 장점         – 피처 간 상대적 비율을 유지하면서 벡터 크기를 통일         – 코사인 유사도 계산 시 유용       • 단점         – 개별 특성의 스케일 조정이 아님 (샘플 단위 정규화)      6. Log Transformation (로그 변환)       양수 값을 갖는 특성에 대해 로그를 취해 분포를 덜 치우치게 만듭니다.       • 변환식:         x_scaled = log(x + ε) (ε: 0일 때 –∞ 방지용 작은 값)       • 장점         – 양의 비율 변화를 강조하고, 긴 꼬리를 가진 분포를 압축         – 지수적 성장 패턴을 완만하게 조정       • 단점         – 0 또는 음수 값 처리 시 추가 조치 필요      7. Power Transformation (거듭제곱 변환)       데이터가 정규분포에 가깝도록 만드는 변환 계수(λ)를 찾아서 적용합니다. 대표적으로 Box-Cox(양수 전용)와 Yeo–Johnson(음수 포함 허용) 방법이 있습니다.       • Box-Cox 변환식 (x>0):         x_scaled = (x^λ – 1) / λ   (λ ≠ 0)         x_scaled = log(x)           (λ = 0)       • Yeo–Johnson 변환식 (x∈ℝ 가능)         – x ≥ 0: ( (x+1)^λ – 1 ) / λ         – x < 0: –( (–x+1)^(2–λ) – 1 ) / (2–λ)       • 장점         – 분포를 정규화하려는 목적에 최적화된 λ를 자동 추정         – 선형 모델, ANOVA, PCA 전처리에 도움       • 단점         – 변환 후 해석이 다소 복잡할 수 있음         – 계산 비용이 다른 기법보다 큼      8. Quantile Transformation (분위수 변환)       데이터의 분위수(quantile)에 대응하는 값으로 변환하여 지정된 분포(예: 균등분포, 정규분포)에 맵핑합니다.       • 과정         1) 각 샘플의 분위수(rank)를 계산         2) 목표 분포의 누적분포함수(CDF)에 대응시켜 값 할당       • 장점         – 분포 왜곡을 최대한 제거하며, 이상치 영향 최소화         – 균등 분포나 표준 정규분포로의 매핑 가능       • 단점         – 데이터마다 순위 기반 변환이므로 상관관계 구조가 일부 훼손될 수 있음         – 변환된 값 사이에 동일 분위수인 경우 동점(tie) 처리 고려      9. Winsorization (윈저화)       극단값을 상·하위 특정 분위수(예: 1%, 99%) 값으로 대체하여 스케일링 전 이상치 제거 효과를 줍니다.       • 장점         – 이상치가 극단적으로 큰 경우에도 분포 왜곡을 줄여줌       • 단점         – 극단값 자체의 의미를 일부 손실      10. 특징별 조합 사용       실제 프로젝트에서는 위 방법들을 단일로 사용하기보다, 특성의 분포나 이상치 여부, 모델 요구사항에 따라 적절히 조합해 사용합니다. 예를 들어       – 숫자형 특성 중 일부는 Min–Max, 일부는 Robust Scaling       – 로그 변환 후에 Standardization       – 희소성이 중요한 텍스트 데이터는 Max-Abs 또는 Unit Vector 정규화      각 스케일링 방법은 데이터 분포, <a href='https://sangseek.com/sangseeks/모델 특성/ko'>모델 특성</a>, 이상치 유무, 해석 용이성 등을 종합적으로 고려해 선택해야 합니다. 실험(experiment)과 교차검증(cross-validation)을 통해 가장 성능이 좋은 전처리 조합을 찾아내는 것이 핵심입니다.