본문 바로가기
ASAC 5기/Machine Learning

09. [Clustering] Clustering 평가지표

by 망고 ෆ 2024. 8. 13.

1. Silhouette Coefficient (실루엣 계수)

  1) 실루엣 계수란?

  • 개별 데이터가 할당된 군집 내 데이터와 얼마나 가깝게 군집화 되어있고, 다른 군집에 있는 데이터와는 얼마나 멀리 분리되어 있는지 평가
    • 1에 가까울수록 : 근처 군집과 멀리 떨어져 있다
    • 0에 가까울수록 : 근처 군집과 가까움
      -1 ~ 1 사이의 값 (1에 가까울수록 성능이 좋은 것!

 

2) 수식

$$ s(i) = \frac{b(i)-a(i)}{max(a(i),b(i))} $$

  • a(i) : i라는 객체로부터 자기와 같은 군집에 속하는 다른 객체들과의 거리의 평균

       (자기와 같은 군집에 속하는 객체들과의 거리의 평균) ⇒ 작을수록 좋음

  • b(i) : i로부터 다른 군집 내 객체들과의 거리 평균의 최솟값

       (다른 군집들과 평균적으로 얼마나 떨어져있는지)

 

 

3) 주의 사항

적당한 실루엣 계수 + 실제 분포를 보며 군집화가 잘 되었는지 확인!

  • 전체 실루엣 스코어 & 개별 군집의 평균값의 편차가 크지 않아야 성능이 좋은것!

       (개별 군집의 실루엣 스코어도 전체 실루엣 스코어와 비슷해야함)

  • 개별 군집에서 실루엣 스코어가 - 값을 가지면 : 잘못 군집화된 것임!

 

 

 

 

2. Dunn Index

  1) Dunn Index 란?

  • 군집 내 데이터 간의 거리의 최댓값을 기반으로 군집 간의 거리의 최솟값을 비교하여 군집화의 타당성 확인
  • 군집끼리는 모여 있으면서 다른 군집과는 멀리 떨어져 있는지 측정
  • 값이 클수록 좋음!

 

  2) 수식

$$ frac{min(두 군집간의 거리)}{max(군집의 지름)} $$

 

'ASAC 5기 > Machine Learning' 카테고리의 다른 글

10. Association Rule Mining (연관규칙분석)  (0) 2024.08.13
08. [Clustering] Hierarchical Clustering  (0) 2024.08.13
07. [Clustering] DBSCAN  (0) 2024.08.13
06. Regression Model  (0) 2024.07.22
05. Linear Regression 관련 용어  (2) 2024.07.17

댓글