06. 데이터 전처리 방법

🎀 데이터 전처리

1) Label Encoding : 범주형 데이터를 정수값으로 변환

2) OneHot Encoding : 행당 범주에 해당하면 1, 나머지는 0으로 인코딩

1) 대치 : 특정 값으로 채움 (0/평균값)

2) KNN : 가장 가까운 K개의 이웃의 평균 이용

$$ Euclidean Distance=\sqrt{(p_{2}-p_{1})^2 + (q_{2}-q_{1})^2} $$

$$ Euclidean Distance=\sqrt{\sum_{i=1}^{n}(p_{i}-q_{i})^2} $$

마할라노비스 Distance
- 데이터 분포를 고려하여 두 점 간의 거리 계산
- 변수들 간의 상관관계를 반영하여 거리 측정
- 공분산이 단위벡터이면, 유클리디언 distance와 같아짐

$$ Mahalanobis Distance=\sqrt{(p−q)^TS^{−1}(p−q)} $$

1) IQR (4분위)

: 보통 IQR의 1.5배 초과하는 값을 이상치로

2) Z-score

$$ Z = \frac{X - \mu}{\sigma} $$

3) Boxplot 사용

4) LOF : 밀도 기반 이상치 탐지 기법

1) 교차 검증 : 모델 성능 평가를 위해 데이터를 여러번 나누어 학습

2) Upsampling & Downsampling

ex) SMOTE

3) Bootstrapping : 데이터 샘플을 복원 추출 → 여러번 샘플링