수정하기 - 머신러닝알고리즘: 모델 평가 지표에는 어떤 것들이 있나요?

닉네임

비밀번호

제목

내용 [이미지 업로드는 권한이 있는 사람만 가능. 하단 카톡으로 연락]

머신러닝 모델을 평가할 때는 문제 유형(분류·회귀·순위 예측·클러스터링 등)과 데이터 특성(불균형 여부, 다중 클래스·다중 레이블 등)에 따라 적절한 지표를 선택해야 합니다. 아래에서는 대표적인 평가 지표들을 유형별로 설명합니다.    1. 분류(Classification) 지표    머신러닝의 분류 문제에서는 먼저 혼동 행렬(confusion matrix)을 통해 True Positive(TP), False Positive(FP), True Negative(TN), False Negative(FN)를 산출합니다.      • 정확도(Accuracy)는 전체 예측 중 맞춘 비율로, (TP+TN)/(TP+TN+FP+FN)으로 계산합니다. 데이터가 불균형할 때는 과대평가될 수 있으므로 주의가 필요합니다.      • 정밀도(Precision)는 양성으로 예측한 것 중 실제 양성의 비율로, TP/(TP+FP)입니다. 모델이 긍정 예측을 얼마나 ‘신뢰’할 수 있는지 보여줍니다.      • 재현율(Recall, Sensitivity)은 실제 양성 중 얼마나 잘 찾아냈는지를 의미하며, TP/(TP+FN)으로 산출합니다. 놓치는 양성 사례가 중요한 의료 진단처럼 재현율이 핵심인 경우가 많습니다.      • F1 점수(F1 Score)는 정밀도와 재현율의 조화평균으로, 2·(Precision·Recall)/(Precision+Recall)입니다. 두 값의 균형을 보고 싶을 때 주로 씁니다.      • 특이도(Specificity)는 실제 음성 중 음성으로 잘 분류한 정도로, TN/(TN+FP)입니다. 재현율과 짝을 이루는 지표라 할 수 있습니다.      • ROC AUC(Receiver Operating Characteristic Area Under Curve)는 거짓 양성 비율(FPR) 대비 진짜 양성 비율(TPR)의 곡선 아래 면적을 계산합니다. <a href='https://sangseek.com/sangseeks/예측 확률/ko'>예측 확률</a>의 분리 능력을 종합적으로 평가합니다.      • PR AUC(Precision-Recall AUC)는 정밀도-재현율 곡선 밑 면적으로, 양성 클래스가 드물거나 비용이 높은 상황에서 더 민감한 평가를 제공합니다.      • 로그 손실(Log Loss)은 예측 확률과 실제 레이블 간의 크로스엔트로피를 측정하며, 확률 예측의 ‘확신(overconfidence)’을 벌점으로 환산합니다.      • Matthews 상관계수(Matthews Correlation Coefficient)는 TP, TN, FP, FN 모두를 고려해 −1부터 +1까지의 값을 가지며, 클래스 불균형 상황에서도 비교적 안정적인 단일 지표를 제공합니다.      • Cohen’s Kappa는 두 평가자(또는 모델과 실제)의 일치도를 우연 일치 확률로 보정한 지표로, 특히 범주 수가 많을 때 유용합니다.      2. 회귀(Regression) 지표    연속값을 예측하는 회귀 모델에서는 예측치와 실제값의 차이를 중심으로 평가합니다.      • 평균제곱오차(MSE, Mean Squared Error)는 오차 제곱의 평균으로, 대형 오차에 페널티를 크게 주기 때문에 큰 오차를 줄이는 데 집중합니다.      • 제곱근평균제곱오차(RMSE, Root MSE)는 MSE에 루트를 취해 원래 단위로 되돌린 것으로, 해석이 직관적입니다.      • 평균절대오차(MAE, Mean Absolute Error)는 오차 절대값의 평균으로, 이상치(outlier)의 영향을 덜 받으며 모든 오차를 동일 비중으로 취급합니다.      • 결정계수(R², Coefficient of Determination)는 모델이 실제값 변동성을 얼마나 설명하는지를 0~1 사이 값으로 나타냅니다. <a href='https://sangseek.com/sangseeks/과적합 방지/ko'>과적합 방지</a>를 위해 독립 변수 수를 보정한 조정R²(Adjusted R²)를 쓰기도 합니다.      • 평균절대백분율오차(MAPE, Mean Absolute Percentage Error)는 실제값 대비 오차 비율의 평균으로, 상대적 예측 정확도를 보고 싶을 때 쓰지만 실제값이 0에 근접하면 왜곡될 수 있습니다.      3. 순위 예측·추천(Ranking & Recommendation) 지표    검색 결과나 추천 시스템처럼 아이템 간 순위를 평가할 때 주로 사용합니다.      • Precision@K와 Recall@K는 상위 K개 추천 항목 중 관련성이 있는 항목의 비율 또는 전체 관련 항목 중 상위 K에 들어온 비율을 봅니다.      • MAP(Mean Average Precision)은 여러 쿼리 또는 이용자에 대한 평균 정밀도를 계산해 한 번에 평가합니다.      • MRR(Mean Reciprocal Rank)은 첫 번째 관련 항목이 등장하는 순위에 대한 역수를 평균 낸 것으로, 빠른 추천이 중요할 때 유용합니다.      • NDCG(Normalized Discounted Cumulative Gain)는 순위별로 가중치를 다르게 주어 상위 노출된 정답 항목에 더 큰 가치를 부여합니다.      4. 클러스터링(Clustering) 지표    지도 레이블이 없는 군집화 결과를 정량적으로 평가할 때 씁니다.      • 실루엣 계수(Silhouette Coefficient)는 각 샘플이 속한 군집 내 응집도와 타 군집과의 분리도를 비교해 −1~+1로 나타냅니다.      • 데이비스–볼딘 지수(Davies–Bouldin Index)는 군집 간 유사성(거리가 가까울수록 불리)과 군집 내 분산을 조합해 낮을수록 좋은 값을 가집니다.      • 칼린스키-하라바스 지수(Calinski-Harabasz Index)는 군집 간 분산 대비 군집 내 분산 비율을 계산해 클수록 군집화가 잘 되었다고 평가합니다.      5. 확률 예측 & 캘<a href='https://sangseek.com/sangseeks/리브레/ko'>리브레</a>이션(Calibration) 지표    모델이 출력하는 확률 분포가 실제 발생 확률과 얼마나 일치하는지 보는 관점입니다.      • 브라이어 점수(Brier Score)는 예측 확률과 실제 라벨 간 제곱 오차 평균으로, 낮을수록 잘 캘리브레이션된 모델입니다.      • 캘리브레이션 곡선(Calibration Curve)과 히스테리시스 플롯을 통해 구간별 예측확률의 실제 빈도를 시각화하기도 합니다.      6. 불균형 데이터 전용 지표    양성(Positive) 사례가 매우 드문 경우, 단순 정확도는 아무 의미가 없을 수 있습니다.      • <a href='https://sangseek.com/sangseeks/균형 정확도/ko'>균형 정확도</a>(Balanced Accuracy)는 (재현율+특이도)/2로 두 클래스 성능을 균등 반영합니다.      • G-mean은 재현율과 특이도의 기하평균으로, 두 성능을 고르게 유지하도록 유도합니다.      이 외에도 문제 성격과 비즈니스 목적에 따라 맞춤형 손실함수(custom loss)나 사용자 정의 지표를 정의하기도 합니다. 모델을 평가할 때는 한 가지 지표에 과도하게 집착하기보다, 여러 지표를 종합하여 트레이드오프를 이해하고 최종 목표에 부합하는 모델을 선택하는 것이 중요합니다.