머신러닝알고리즘: 모델 평가 지표에는 어떤 것들이 있나요?

_____

1. Q: 머신러닝 모델 평가 지표란 무엇인가요?
A: 모델이 실제 데이터에서 얼마나 잘 예측하는지 수치로 나타낸 척도입니다. 분류(classification)와 회귀(regression)에 따라 사용하는 지표가 다릅니다.

2. Q: 분류 모델 평가 지표에는 어떤 것들이 있나요?
A:
1) 혼동 행렬(Confusion Matrix)
- TP(True Positive), TN(True Negative), FP(False Positive), FN(False Negative) 개수 집계
2) 정확도(Accuracy)
- (TP + TN) / 전체 샘플 수
3) 정밀도(Precision)
- TP / (TP + FP)
- “예측을 양성이라고 한 것 중 실제로 양성인 비율”
4) 재현율(Recall, Sensitivity)
- TP / (TP + FN)
- “실제 양성 중 모델이 양성으로 맞춘 비율”
5) F1 점수(F1 Score)
- 2 × (Precision × Recall) / (Precision + Recall)
- 정밀도와 재현율의 조화평균
6) 특이도(Specificity)
- TN / (TN + FP)
7) ROC 곡선 및 AUC(Area Under ROC Curve)
- 민감도(Recall) 대 (1–특이도) 곡선
- AUC는 곡선 아래 면적으로, 0.5(무작위)~1.0(완벽)
8) Precision-Recall 곡선 및 PR-AUC
9) MCC(Matthews Correlation Coefficient)
- 불균형 데이터에서 강건한 지표
10) Cohen’s Kappa
- 관찰된 정확도와 우연에 의한 정확도 차이를 반영

3. Q: 회귀 모델 평가 지표에는 어떤 것들이 있나요?
A:
1) 평균제곱오차(MSE; Mean Squared Error)
- (1/n) Σ(yi – ŷi)²
2) 평균제곱근오차(RMSE; Root MSE)
- √MSE
3) 평균절대오차(MAE; Mean Absolute Error)
- (1/n) Σ|yi – ŷi|
4) 평균절대백분율오차(MAPE; Mean Absolute Percentage Error)
- (100/n) Σ| (yi – ŷi) / yi |
5) R² 점수(Coefficient of Determination)
- 1 – (RSS/TSS), 0~1 사이, 1에 가까울수록 설명력 높음
6) 설명된 분산(Explained Variance Score)

4. Q: 다중 클래스 분류에서 유의할 점은?

A:
- Macro 평균: 각 클래스 지표 산출 후 단순 평균
- Micro 평균: 전체 TP, FP, FN 합산 후 계산
- Weighted 평균: 클래스별 샘플 비율 가중치 적용

5. Q: 불균형 클래스 문제에 적합한 지표는?
A:
- Precision, Recall, F1 Score
- ROC-AUC, PR-AUC
- MCC, Kappa
- 클래스별 가중치 적용 or 오버/언더샘플링과 병행

6. Q: 로그 손실(Log Loss)은 무엇인가요?
A:
- 분류에서 예측 확률의 불일치를 벌점으로 환산
- –(1/n) Σ [yi·log(pi) + (1–yi)·log(1–pi)]
- 값이 작을수록 예측 확률이 실제 레이블에 가까움

7. Q: ROC 곡선과 Precision-Recall 곡선의 차이는?
A:
- ROC: 민감도 vs (1–특이도), 클래스 불균형 덜 민감
- PR: 정밀도 vs 재현율, 양성 비율이 낮을 때 더 의미 있는 평가

8. Q: 교차검증(Cross-Validation)과 지표 산출은 어떻게 연관되나요?
A:
- 데이터를 K개 블록으로 나눠 K번 학습/평가
- 각 Fold 지표 평균 및 표준편차 확인
- 과적합·과소적합 여부 파악

9. Q: 어떤 지표를 선택해야 할지 기준이 있나요?
A:
1) 목표: 분류 vs 회귀
2) 비즈니스 관점: 오탐(FP) vs 누락(FN) 비용 비교
3) 데이터 속성: 클래스 불균형 시 정밀도·재현율·AUC 우선
4) 해석 용이성 및 보고 대상 고려

10. Q: 지표 개선을 위해 고려할 점은?
A:
- 데이터 전처리: 이상치 제거, 정규화, 레이블 스무딩
- 모델 튜닝: 하이퍼파라미터 최적화, 앙상블 기법
- 샘플링: 오버/언더샘플링, SMOTE
- 특성 엔지니어링: 도메인 지식 기반 새로운 피처 생성

— 끝 —

머신러닝알고리즘: 훈련 데이터와 테스트 데이터의 분할 방법은?

머신러닝알고리즘: 비지도 학습의 활용 사례는 무엇인가요?

머신러닝 모델을 평가할 때는 문제 유형(분류·회귀·순위 예측·클러스터링 등)과 데이터 특성(불균형 여부, 다중 클래스·다중 레이블 등)에 따라 적절한 지표를 선택해야 합니다.

아래에서는 대표적인 평가 지표들을 유형별로 설명합니다.

1. 분류(Classification) 지표 머신러닝의 분류 문제에서는 먼저 혼동 행렬(confusion matrix)을 통해 True Positive(TP), False Positive(FP), True Negative(TN), False Negative(FN)를 산출합니다.

• 정확도(Accuracy)는 전체 예측 중 맞춘 비율로, (TP+TN)/(TP+TN+FP+FN)으로 계산합니다.

데이터가 불균형할 때는 과대평가될 수 있으므로 주의가 필요합니다.

• 정밀도(Precision)는 양성으로 예측한 것 중 실제 양성의 비율로, TP/(TP+FP)입니다.

모델이 긍정 예측을 얼마나 ‘신뢰’할 수 있는지 보여줍니다.

• 재현율(Recall, Sensitivity)은 실제 양성 중 얼마나 잘 찾아냈는지를 의미하며, TP/(TP+FN)으로 산출합니다.

놓치는 양성 사례가 중요한 의료 진단처럼 재현율이 핵심인 경우가 많습니다.

• F1 점수(F1 Score)는 정밀도와 재현율의 조화평균으로, 2·(Precision·Recall)/(Precision+Recall)입니다.

두 값의 균형을 보고 싶을 때 주로 씁니다.

• 특이도(Specificity)는 실제 음성 중 음성으로 잘 분류한 정도로, TN/(TN+FP)입니다.

재현율과 짝을 이루는 지표라 할 수 있습니다.

• ROC AUC(Receiver Operating Characteristic Area Under Curve)는 거짓 양성 비율(FPR) 대비 진짜 양성 비율(TPR)의 곡선 아래 면적을 계산합니다.

예측 확률의 분리 능력을 평가합니다.

• PR AUC(Precision-Recall AUC)는 정밀도-재현율 곡선 밑 면적으로, 양성 클래스가 드물거나 비용이 높은 상황에서 더 민감한 평가를 제공합니다.

• 로그 손실(Log Loss)은 예측 확률과 실제 레이블 간의 크로스엔트로피를 측정하며, 확률 예측의 ‘확신(overconfidence)’을 벌점으로 환산합니다.

• Matthews 상관계수(Matthews Correlation Coefficient)는 TP, TN, FP, FN 모두를 고려해 −1부터 +1까지의 값을 가지며, 클래스 불균형 상황에서도 비교적 안정적인 단일 지표를 제공합니다.

• Cohen’s Kappa는 두 평가자(또는 모델과 실제)의 일치도를 우연 일치 확률로 보정한 지표로, 특히 범주 수가 많을 때 유용합니다.

2. 회귀(Regression) 지표 연속값을 예측하는 회귀 모델에서는 예측치와 실제값의 차이를 중심으로 평가합니다.

• 평균제곱오차(MSE, Mean Squared Error)는 오차 제곱의 평균으로, 대형 오차에 페널티를 크게 주기 때문에 큰 오차를 줄이는 데 집중합니다.

• 제곱근평균제곱오차(RMSE, Root MSE)는 MSE에 루트를 취해 원래 단위로 되돌린 것으로, 해석이 직관적입니다.

• 평균절대오차(MAE, Mean Absolute Error)는 오차 절대값의 평균으로, 이상치(outlier)의 영향을 덜 받으며 모든 오차를 동일 비중으로 취급합니다.

• 결정계수(R², Coefficient of Determination)는 모델이 실제값 변동성을 얼마나 설명하는지를 0~1 사이 값으로 나타냅니다.

과적합 방지를 위해 독립 변수 수를 보정한 조정R²(Adjusted R²)를 쓰기도 합니다.

• 평균절대백분율오차(MAPE, Mean Absolute Percentage Error)는 실제값 대비 오차 비율의 평균으로, 상대적 예측 정확도를 보고 싶을 때 쓰지만 실제값이 0에 근접하면 왜곡될 수 있습니다.

3. 순위 예측·추천(Ranking & Recommendation) 지표 검색 결과나 추천 시스템처럼 아이템 간 순위를 평가할 때 주로 사용합니다.

• Precision@K와 Recall@K는 상위 K개 추천 항목 중 관련성이 있는 항목의 비율 또는 전체 관련 항목 중 상위 K에 들어온 비율을 봅니다.

• MAP(Mean Average Precision)은 여러 쿼리 또는 이용자에 대한 평균 정밀도를 계산해 한 번에 평가합니다.

• MRR(Mean Reciprocal Rank)은 첫 번째 관련 항목이 등장하는 순위에 대한 역수를 평균 낸 것으로, 빠른 추천이 중요할 때 유용합니다.

• NDCG(Normalized Discounted Cumulative Gain)는 순위별로 가중치를 다르게 주어 상위 노출된 정답 항목에 더 큰 가치를 부여합니다.

4. 클러스터링(Clustering) 지표 지도 레이블이 없는 군집화 결과를 정량적으로 평가할 때 씁니다.

• 실루엣 계수(Silhouette Coefficient)는 각 샘플이 속한 군집 내 응집도와 타 군집과의 분리도를 비교해 −1~+1로 나타냅니다.

• 데이비스–볼딘 지수(Davies–Bouldin Index)는 군집 간 유사성(거리가 가까울수록 불리)과 군집 내 분산을 조합해 낮을수록 좋은 값을 가집니다.

• 칼린스키-하라바스 지수(Calinski-Harabasz Index)는 군집 간 분산 대비 군집 내 분산 비율을 계산해 클수록 군집화가 잘 되었다고 평가합니다.

5. 확률 예측 & 캘리브레이션(Calibration) 지표 모델이 출력하는 확률 분포가 실제 발생 확률과 얼마나 일치하는지 보는 관점입니다.

• 브라이어 점수(Brier Score)는 예측 확률과 실제 라벨 간 제곱 오차 평균으로, 낮을수록 잘 캘리브레이션된 모델입니다.

• 캘리브레이션 곡선(Calibration Curve)과 히스테리시스 플롯을 통해 구간별 예측확률의 실제 빈도를 시각화하기도 합니다.

6. 불균형 데이터 전용 지표 양성(Positive) 사례가 매우 드문 경우, 단순 정확도는 아무 의미가 없을 수 있습니다.

• 균형 정확도(Balanced Accuracy)는 (재현율+특이도)/2로 두 클래스 성능을 균등 반영합니다.

• G-mean은 재현율과 특이도의 기하평균으로, 두 성능을 고르게 유지하도록 유도합니다.

이 외에도 문제 성격과 비즈니스 목적에 따라 맞춤형 손실함수(custom loss)나 사용자 정의 지표를 정의하기도 합니다.

모델을 평가할 때는 한 가지 지표에 과도하게 집착하기보다, 여러 지표를 종합하여 트레이드오프를 이해하고 최종 목표에 부합하는 모델을 선택하는 것이 중요합니다.

작성자: 김민호 [비회원] | 작성일자: 11개월 전
조회수: 209 | 댓글: 0 | 좋아요: 0 | 싫어요: 0

내용이 부정확하다면 싫어요를 클릭해주세요.

수정