머신러닝알고리즘: 모델 평가 지표에는 어떤 것들이 있나요?
_____A: 모델이 실제 데이터에서 얼마나 잘 예측하는지 수치로 나타낸 척도입니다. 분류(classification)와 회귀(regression)에 따라 사용하는 지표가 다릅니다.
2. Q: 분류 모델 평가 지표에는 어떤 것들이 있나요?
A:
1) 혼동 행렬(Confusion Matrix)
- TP(True Positive), TN(True Negative), FP(False Positive), FN(False Negative) 개수 집계
2) 정확도(Accuracy)
- (TP + TN) / 전체 샘플 수
3) 정밀도(Precision)
- TP / (TP + FP)
- “예측을 양성이라고 한 것 중 실제로 양성인 비율”
4) 재현율(Recall, Sensitivity)
- TP / (TP + FN)
- “실제 양성 중 모델이 양성으로 맞춘 비율”
5) F1 점수(F1 Score)
- 2 × (Precision × Recall) / (Precision + Recall)
- 정밀도와 재현율의 조화평균
6) 특이도(Specificity)
- TN / (TN + FP)
7) ROC 곡선 및 AUC(Area Under ROC Curve)
- 민감도(Recall) 대 (1–특이도) 곡선
- AUC는 곡선 아래 면적으로, 0.5(무작위)~1.0(완벽)
8) Precision-Recall 곡선 및 PR-AUC
9) MCC(Matthews Correlation Coefficient)
- 불균형 데이터에서 강건한 지표
10) Cohen’s Kappa
- 관찰된 정확도와 우연에 의한 정확도 차이를 반영
3. Q: 회귀 모델 평가 지표에는 어떤 것들이 있나요?
A:
1) 평균제곱오차(MSE; Mean Squared Error)
- (1/n) Σ(yi – ŷi)²
2) 평균제곱근오차(RMSE; Root MSE)
- √MSE
3) 평균절대오차(MAE; Mean Absolute Error)
- (1/n) Σ|yi – ŷi|
4) 평균절대백분율오차(MAPE; Mean Absolute Percentage Error)
- (100/n) Σ| (yi – ŷi) / yi |
5) R² 점수(Coefficient of Determination)
- 1 – (RSS/TSS), 0~1 사이, 1에 가까울수록 설명력 높음
6) 설명된 분산(Explained Variance Score)
4. Q: 다중 클래스 분류에서 유의할 점은?
- Macro 평균: 각 클래스 지표 산출 후 단순 평균
- Micro 평균: 전체 TP, FP, FN 합산 후 계산
- Weighted 평균: 클래스별 샘플 비율 가중치 적용
5. Q: 불균형 클래스 문제에 적합한 지표는?
A:
- Precision, Recall, F1 Score
- ROC-AUC, PR-AUC
- MCC, Kappa
- 클래스별 가중치 적용 or 오버/언더샘플링과 병행
6. Q: 로그 손실(Log Loss)은 무엇인가요?
A:
- 분류에서 예측 확률의 불일치를 벌점으로 환산
- –(1/n) Σ [yi·log(pi) + (1–yi)·log(1–pi)]
- 값이 작을수록 예측 확률이 실제 레이블에 가까움
7. Q: ROC 곡선과 Precision-Recall 곡선의 차이는?
A:
- ROC: 민감도 vs (1–특이도), 클래스 불균형 덜 민감
- PR: 정밀도 vs 재현율, 양성 비율이 낮을 때 더 의미 있는 평가
8. Q: 교차검증(Cross-Validation)과 지표 산출은 어떻게 연관되나요?
A:
- 데이터를 K개 블록으로 나눠 K번 학습/평가
- 각 Fold 지표 평균 및 표준편차 확인
- 과적합·과소적합 여부 파악
9. Q: 어떤 지표를 선택해야 할지 기준이 있나요?
A:
1) 목표: 분류 vs 회귀
2) 비즈니스 관점: 오탐(FP) vs 누락(FN) 비용 비교
3) 데이터 속성: 클래스 불균형 시 정밀도·재현율·AUC 우선
4) 해석 용이성 및 보고 대상 고려
10. Q: 지표 개선을 위해 고려할 점은?
A:
- 데이터 전처리: 이상치 제거, 정규화, 레이블 스무딩
- 모델 튜닝: 하이퍼파라미터 최적화, 앙상블 기법
- 샘플링: 오버/언더샘플링, SMOTE
- 특성 엔지니어링: 도메인 지식 기반 새로운 피처 생성
— 끝 —
아래에서는 대표적인 평가 지표들을 유형별로 설명합니다.
1. 분류(Classification) 지표 머신러닝의 분류 문제에서는 먼저 혼동 행렬(confusion matrix)을 통해 True Positive(TP), False Positive(FP), True Negative(TN), False Negative(FN)를 산출합니다.
• 정확도(Accuracy)는 전체 예측 중 맞춘 비율로, (TP+TN)/(TP+TN+FP+FN)으로 계산합니다.
데이터가 불균형할 때는 과대평가될 수 있으므로 주의가 필요합니다.
• 정밀도(Precision)는 양성으로 예측한 것 중 실제 양성의 비율로, TP/(TP+FP)입니다.
모델이 긍정 예측을 얼마나 ‘신뢰’할 수 있는지 보여줍니다.
• 재현율(Recall, Sensitivity)은 실제 양성 중 얼마나 잘 찾아냈는지를 의미하며, TP/(TP+FN)으로 산출합니다.
놓치는 양성 사례가 중요한 의료 진단처럼 재현율이 핵심인 경우가 많습니다.
• F1 점수(F1 Score)는 정밀도와 재현율의 조화평균으로, 2·(Precision·Recall)/(Precision+Recall)입니다.
두 값의 균형을 보고 싶을 때 주로 씁니다.
• 특이도(Specificity)는 실제 음성 중 음성으로 잘 분류한 정도로, TN/(TN+FP)입니다.
재현율과 짝을 이루는 지표라 할 수 있습니다.
• ROC AUC(Receiver Operating Characteristic Area Under Curve)는 거짓 양성 비율(FPR) 대비 진짜 양성 비율(TPR)의 곡선 아래 면적을 계산합니다.
예측 확률의 분리 능력을 평가합니다.
• PR AUC(Precision-Recall AUC)는 정밀도-재현율 곡선 밑 면적으로, 양성 클래스가 드물거나 비용이 높은 상황에서 더 민감한 평가를 제공합니다.
• 로그 손실(Log Loss)은 예측 확률과 실제 레이블 간의 크로스엔트로피를 측정하며, 확률 예측의 ‘확신(overconfidence)’을 벌점으로 환산합니다.
• Matthews 상관계수(Matthews Correlation Coefficient)는 TP, TN, FP, FN 모두를 고려해 −1부터 +1까지의 값을 가지며, 클래스 불균형 상황에서도 비교적 안정적인 단일 지표를 제공합니다.
• Cohen’s Kappa는 두 평가자(또는 모델과 실제)의 일치도를 우연 일치 확률로 보정한 지표로, 특히 범주 수가 많을 때 유용합니다.
2. 회귀(Regression) 지표 연속값을 예측하는 회귀 모델에서는 예측치와 실제값의 차이를 중심으로 평가합니다.
• 평균제곱오차(MSE, Mean Squared Error)는 오차 제곱의 평균으로, 대형 오차에 페널티를 크게 주기 때문에 큰 오차를 줄이는 데 집중합니다.
• 제곱근평균제곱오차(RMSE, Root MSE)는 MSE에 루트를 취해 원래 단위로 되돌린 것으로, 해석이 직관적입니다.
• 평균절대오차(MAE, Mean Absolute Error)는 오차 절대값의 평균으로, 이상치(outlier)의 영향을 덜 받으며 모든 오차를 동일 비중으로 취급합니다.
• 결정계수(R², Coefficient of Determination)는 모델이 실제값 변동성을 얼마나 설명하는지를 0~1 사이 값으로 나타냅니다.
과적합 방지를 위해 독립 변수 수를 보정한 조정R²(Adjusted R²)를 쓰기도 합니다.
• 평균절대백분율오차(MAPE, Mean Absolute Percentage Error)는 실제값 대비 오차 비율의 평균으로, 상대적 예측 정확도를 보고 싶을 때 쓰지만 실제값이 0에 근접하면 왜곡될 수 있습니다.
3. 순위 예측·추천(Ranking & Recommendation) 지표 검색 결과나 추천 시스템처럼 아이템 간 순위를 평가할 때 주로 사용합니다.
• Precision@K와 Recall@K는 상위 K개 추천 항목 중 관련성이 있는 항목의 비율 또는 전체 관련 항목 중 상위 K에 들어온 비율을 봅니다.
• MAP(Mean Average Precision)은 여러 쿼리 또는 이용자에 대한 평균 정밀도를 계산해 한 번에 평가합니다.
• MRR(Mean Reciprocal Rank)은 첫 번째 관련 항목이 등장하는 순위에 대한 역수를 평균 낸 것으로, 빠른 추천이 중요할 때 유용합니다.
• NDCG(Normalized Discounted Cumulative Gain)는 순위별로 가중치를 다르게 주어 상위 노출된 정답 항목에 더 큰 가치를 부여합니다.
4. 클러스터링(Clustering) 지표 지도 레이블이 없는 군집화 결과를 정량적으로 평가할 때 씁니다.
• 실루엣 계수(Silhouette Coefficient)는 각 샘플이 속한 군집 내 응집도와 타 군집과의 분리도를 비교해 −1~+1로 나타냅니다.
• 데이비스–볼딘 지수(Davies–Bouldin Index)는 군집 간 유사성(거리가 가까울수록 불리)과 군집 내 분산을 조합해 낮을수록 좋은 값을 가집니다.
• 칼린스키-하라바스 지수(Calinski-Harabasz Index)는 군집 간 분산 대비 군집 내 분산 비율을 계산해 클수록 군집화가 잘 되었다고 평가합니다.
5. 확률 예측 & 캘리브레이션(Calibration) 지표 모델이 출력하는 확률 분포가 실제 발생 확률과 얼마나 일치하는지 보는 관점입니다.
• 브라이어 점수(Brier Score)는 예측 확률과 실제 라벨 간 제곱 오차 평균으로, 낮을수록 잘 캘리브레이션된 모델입니다.
• 캘리브레이션 곡선(Calibration Curve)과 히스테리시스 플롯을 통해 구간별 예측확률의 실제 빈도를 시각화하기도 합니다.
6. 불균형 데이터 전용 지표 양성(Positive) 사례가 매우 드문 경우, 단순 정확도는 아무 의미가 없을 수 있습니다.
• 균형 정확도(Balanced Accuracy)는 (재현율+특이도)/2로 두 클래스 성능을 균등 반영합니다.
• G-mean은 재현율과 특이도의 기하평균으로, 두 성능을 고르게 유지하도록 유도합니다.
이 외에도 문제 성격과 비즈니스 목적에 따라 맞춤형 손실함수(custom loss)나 사용자 정의 지표를 정의하기도 합니다.
모델을 평가할 때는 한 가지 지표에 과도하게 집착하기보다, 여러 지표를 종합하여 트레이드오프를 이해하고 최종 목표에 부합하는 모델을 선택하는 것이 중요합니다.
작성자:
김민호 [비회원]
| 작성일자: 10개월 전
2025-07-22 08:21:45
조회수: 190 | 댓글: 0 | 좋아요: 0 | 싫어요: 0
조회수: 190 | 댓글: 0 | 좋아요: 0 | 싫어요: 0
내용이 부정확하다면 싫어요를 클릭해주세요.