1. Silhouette Coefficient (실루엣 계수)
1) 실루엣 계수란?
- 개별 데이터가 할당된 군집 내 데이터와 얼마나 가깝게 군집화 되어있고, 다른 군집에 있는 데이터와는 얼마나 멀리 분리되어 있는지 평가
- 1에 가까울수록 : 근처 군집과 멀리 떨어져 있다
- 0에 가까울수록 : 근처 군집과 가까움
-1 ~ 1 사이의 값 (1에 가까울수록 성능이 좋은 것!
2) 수식
$$ s(i) = \frac{b(i)-a(i)}{max(a(i),b(i))} $$
- a(i) : i라는 객체로부터 자기와 같은 군집에 속하는 다른 객체들과의 거리의 평균
(자기와 같은 군집에 속하는 객체들과의 거리의 평균) ⇒ 작을수록 좋음
- b(i) : i로부터 다른 군집 내 객체들과의 거리 평균의 최솟값
(다른 군집들과 평균적으로 얼마나 떨어져있는지)
3) 주의 사항
적당한 실루엣 계수 + 실제 분포를 보며 군집화가 잘 되었는지 확인!
- 전체 실루엣 스코어 & 개별 군집의 평균값의 편차가 크지 않아야 성능이 좋은것!
(개별 군집의 실루엣 스코어도 전체 실루엣 스코어와 비슷해야함)
- 개별 군집에서 실루엣 스코어가 - 값을 가지면 : 잘못 군집화된 것임!
2. Dunn Index
1) Dunn Index 란?
- 군집 내 데이터 간의 거리의 최댓값을 기반으로 군집 간의 거리의 최솟값을 비교하여 군집화의 타당성 확인
- 군집끼리는 모여 있으면서 다른 군집과는 멀리 떨어져 있는지 측정
- 값이 클수록 좋음!
2) 수식
$$ frac{min(두 군집간의 거리)}{max(군집의 지름)} $$
'ASAC 5기 > Machine Learning' 카테고리의 다른 글
10. Association Rule Mining (연관규칙분석) (0) | 2024.08.13 |
---|---|
08. [Clustering] Hierarchical Clustering (0) | 2024.08.13 |
07. [Clustering] DBSCAN (0) | 2024.08.13 |
06. Regression Model (0) | 2024.07.22 |
05. Linear Regression 관련 용어 (2) | 2024.07.17 |
댓글