머신러닝알고리즘: F1 Score의 의미는 무엇인가요?

_____
Q1: F1 Score란 무엇인가요?
A1: F1 Score는 분류 모델의 성능을 평가할 때 사용하는 지표로, 정밀도(Precision)와 재현율(Recall)의 조화평균(harmonic mean)입니다. 두 지표 간의 균형을 측정해, 한쪽으로 치우치지 않은 모델 성능을 파악하는 데 유용합니다.

Q2: 정밀도(Precision)와 재현율(Recall)은 무엇인가요?
A2:
- 정밀도(Precision) = TP / (TP + FP)
• TP(True Positive): 실제 Positive를 Positive로 맞춘 수
• FP(False Positive): 실제 Negative를 잘못 Positive로 분류한 수
모델이 Positive로 예측한 것 중 실제로 맞춘 비율입니다.
- 재현율(Recall) = TP / (TP + FN)
• FN(False Negative): 실제 Positive를 Negative로 잘못 분류한 수
실제 Positive인 것 중 모델이 놓치지 않고 잡아낸 비율입니다.

Q3: F1 Score는 어떻게 계산하나요?
A3:
F1 = 2 × (Precision × Recall) / (Precision + Recall)
정밀도와 재현율이 모두 높을수록 F1 Score도 높아집니다. 두 값의 조화평균을 사용하기 때문에, 둘 중 하나가 낮으면 전체 F1 Score가 크게 떨어집니다.

Q4: F1 Score를 왜 사용하나요?
A4:
- 클래스 불균형 문제가 있는 데이터에서 Accuracy(정확도)만으로는 모델 성능을 신뢰하기 어려울 때
- Precision과 Recall 간의 trade-off를 균형 있게 평가하고 싶을 때
예를 들어, 사기 거래 탐지나 스팸 필터링처럼 Positive(극히 적은 사례)를 놓치면 큰 손해가 발생하는 분야에서 유용합니다.

Q5: F1 Score의 장단점은 무엇인가요?
A5:
장점
- Precision과 Recall 모두 고려해 불균형 데이터에서 신뢰도 높은 평가 가능
- 단일 지표로 모델 성능 요약 제공
단점
- 클래스별 중요도가 다를 때 균일한 가중치를 부여하므로 적합하지 않을 수 있음
- 예측한 Positive가 실제로는 중요도가 낮다면 의미가 제한적

Q6: 다중 클래스 분류에서 F1 Score를 어떻게 적용하나요?
A6:
- Macro-F1: 각 클래스별 F1를 계산한 뒤 평균. 클래스 크기에 상관없이 동일 비중
- Micro-F1: 전체 TP, FP, FN을 합산해 하나의 Precision/Recall/F1을 계산. 데이터 셋 전체 관점
- Weighted-F1: 각 클래스별 F1에 실제 샘플 비율을 가중치로 곱해 합산
문제 성격에 맞춰 선택합니다.

Q7: Accuracy와 F1 Score 중 어느 것을 선택해야 하나요?
A7:
- 클래스가 균형적이고 각 오류 유형(오탐/미탐)이 비슷한 비용을 갖는다면 Accuracy가 간편
- 클래스 불균형이 크거나, False Positive와 False Negative의 비용이 다르다면 F1 Score가 더 적절

Q8: F1 Score를 최대화하려면 어떻게 학습을 조정하나요?
A8:
- 분류 임계값(threshold)을 조정해 Precision/Recall 균형 맞추기
- 손실함수에 가중치(weight) 부여 또는 비용 민감 학습(cost-sensitive learning)
- 오버샘플링/언더샘플링 기법으로 클래스 불균형 완화

Q9: F1 Score 해석 시 유의할 점은 무엇인가요?
A9:
- F1 Score만으로 모델이 전반적으로 좋은지 판단하기보다, Precision·Recall·ROC-AUC 등 다른 지표와 함께 보아야 함
- 도메인별 오류 비용(오탐/미탐 비용)과 연결해 실제 비즈니스 관점에서 평가 필요
F1 스코어는 분류 문제에서 모델의 성능을 평가할 때 특히 불균형한 클래스 분포를 다룰 때 널리 쓰이는 지표입니다.

단순히 정확도(Accuracy)만으로는 소수 클래스에 대한 예측 성능을 제대로 파악하기 어렵기 때문에, F1 스코어는 정밀도(Precision)와 재현율(Recall)을 하나의 값으로 결합해 균형 있게 평가할 수 있도록 고안되었습니다.

1. 정밀도(Precision)와 재현율(Recall) - 정밀도는 모델이 Positive(양성)라고 예측한 것 중에서 실제로 양성인 비율입니다.

즉, ‘틀린 양성 예측(False Positive)’을 얼마나 적게 만들었는지를 보여주죠. - 재현율은 실제 양성 샘플 중에서 모델이 얼마나 많이 양성으로 찾아내었는지를 나타냅니다.

즉, ‘놓친 양성(False Negative)’을 얼마나 줄였는지에 집중합니다.



2. F1 스코어의 정의 F1 스코어는 정밀도(Precision)와 재현율(Recall)의 조화평균(harmonic mean)으로 정의됩니다.

수식으로 표현하면 다음과 같습니다.

F1 = 2 × (Precision × Recall) / (Precision + Recall) 조화평균을 선택한 이유는 두 값 중 하나라도 낮으면 F1 스코어 전체가 크게 낮아지도록 하기 위함입니다.

이로써 모델이 한쪽 지표에만 치우쳐 성능을 확보하는 것을 방지합니다.



3. F1 스코어의 해석 - F1 스코어는 0에서 1 사이의 값을 가지며, 1에 가까울수록 정밀도와 재현율이 모두 높다는 의미입니다.

- 특히 실제 양성 샘플이 매우 적은 경우(예: 사기 거래 탐지, 암 진단 등)에는 정밀도나 재현율 어느 한쪽만 높여서는 충분치 않습니다.

F1 스코어는 두 지표 모두를 고려함으로써 전체적인 균형을 평가할 수 있게 해줍니다.



4. 언제 F1 스코어를 사용해야 하나? - 클래스 간 불균형이 심해 정확도가 왜곡될 가능성이 클 때 - FP(False Positive)와 FN(False Negative) 모두 중요한 비용을 수반할 때 - 모델이 특정 클래스에 과도하게 편향되어 있지 않은지 확인하고 싶을 때

5. 한계와 보완 - 조화평균 특성상 Precision과 Recall이 극단적으로 차이나면 F1 스코어가 낮아집니다.

- 하지만 중요도(예: 재현율이 더 중요하다거나 정밀도가 더 중요하다)가 한쪽에 치우친 애플리케이션에서는 Fβ 스코어(β값으로 가중치를 조절)나 별도의 맞춤형 평가 지표를 고려할 수 있습니다.

F1 스코어는 정밀도와 재현율 사이의 균형을 수치화한 지표로, 특히 불균형 데이터셋이나 두 오류 유형(FP, FN)이 모두 중요할 때 모델 성능을 평가하는 데 매우 유용합니다.

작성자: 박주원 [비회원] | 작성일자: 11개월 전 2025-07-22 08:21:47
조회수: 213 | 댓글: 0 | 좋아요: 0 | 싫어요: 0
내용이 부정확하다면 싫어요를 클릭해주세요.