1. 정확도 (Accuracy)
실제 데이터에서 예측 데이터가 얼마나 같은지 판단
정확도 (Accuracy) = 예측 결과가 동일한 데이터 건수 / 전체 예측 건수
가장 직관적이고, 단순하게 평가할 수 있는 지표지만, 불균형한 레이블 값 분포에서는 신중하게 사용해야 한다.
만약, 100개의 데이터 중, 90개의 데이터 레이블이 0, 10개의 데이터 레이블이 1인데, 무조건 0으로 반환하는 모델을 사용했을 경우, 정확도가 90%가 나오게 되는데 이는 무의미한 수치이기 때문이다.
따라서, Accuracy는 불균형한 레이블 데이터 세트에서는 성능 평가 지표로 사용하면 안된다!
2. 오차 행렬 (Confusion Matrix)
오차 행렬은 이진 분류에서 사용할 수 있는 평가지표이다.
이진 분류의 예측 오류가 얼마인지뿐만 아니라 어떤 예측 오류가 발생하였는지까지 알려준다.

4분면 행령을 통해 실제 레이블 클래스와 예측 레이블 클래스 값이 어떻게 매칭되는지 확인할 수 있다.
앞에 있는 True와 False는 예측값과 실제값이 같은지/다른지를 나타내는 것이고, 뒤의 Positive와 Negative는 예측한 값이 무엇인지에 대한 의미를 나타낸다.
TP : 예측값을 Positive(1) 로 예측했는데 실제값도 Positive(1) 인 경우
FP : 예측값을 Positive(1) 로 예측했는데 실제값은 Negative(0) 인 경우
FN : 예측값을 Negative(0) 으로 예측했는데 실제값은 Positive(1) 인 경우
TN : 예측값을 Negative(0) 으로 예측했는데 실제값도 Negative(0) 인 경우
이를 통해, 정확도(Accuracy), 정밀도 (Precision), 재현율 (Recall) 값을 알 수 있다.
정확도 = 예측값과 실제값이 동일한 건수/전체 데이터 수 = (TP+TN) / (TP+FP+FN+TN)
+ 불균형 레이블 클래스를 가지는 이진 분류 모델의 경우, 매우 적은 결과값에 1, 많은 결과값에 0을 부여하는 경우가 많다!
3. 정밀도 (Precision)
예측을 Positive로 한 대상 중 예측값과 실제값이 Positive로 일치한 데이터의 비율!
Positive 예측 성능을 더욱 정밀하게 측정할 경우 이용
정밀도 = TP / (TP+FP)
4. 재현율 (Recall)
실제값이 Positive인 대상 중 예측값과 실제값이 Positive로 일치한 데이터의 비율!
실제 Positive인 데이터를 Negative라고 잘못 판단 시 크게 문제가 되는 경우, 재현율이 중요하다.
예를 들어, 암인 환자에게 암이 아니라고 했을 경우 크게 문제가 되는데 이런 경우엔 재현율이 중요하다.
재현율 = TP / (TP + FN)
'ASAC 5기 > Machine Learning' 카테고리의 다른 글
06. Regression Model (0) | 2024.07.22 |
---|---|
05. Linear Regression 관련 용어 (2) | 2024.07.17 |
03. 데이터 전처리 및 인코딩 (0) | 2024.06.18 |
02. 교차 검증 (0) | 2024.06.18 |
01. Numpy 기초 (0) | 2024.04.08 |
댓글