🍨 진행과정
데이터 수집 → 분할 → 전처리 → EDA → 주요 입력변수 선정 → 데이터 증가
→ 모델 선정 → HPT 선정 → 모델 학습 → 모델 검증 및 테스트
📌 Linear Regression 관련 알아야 할 용어들
1. Linear Regression이란?
- 두 개 이상의 변수들 간의 선형 관계를 모델링
- 독립 변수의 값을 통해 종속 변수 예측
- 직선 형태
- 수식
- y : 종속 변수
- x : 독립 변수
- β0 : 절편 (독립 변수가 0일 때 종속 변수의 예상값)
- β1 : 기울기 (독립 변수의 단위 변화에 따른 종속 변수의 변화량), 회귀계수
- ϵ : 오차항 (실제값과 예측값 간의 차이)
$$ y = \beta_{0} + \beta_{1}x + \epsilon $$
2. Linear Regression 종류
1) 단순 선형 회귀 (Simple Linear Regression)
하나의 독립 변수와 하나의 종속 변수 간의 관계 모델링
$$ y = \beta_{0} + \beta_{1}x + \epsilon $$
2) 다중 선형 회귀 (Multiple Linear Regression)
두 개 이상의 독립 변수와 하나의 종속 변수 간의 관계 모델링$$ y = \beta_{0} + \beta_{1}x_{1} + \beta_{2}x_{2} + ⋯ + \beta_{n}x_{n} +\epsilon $$
3) 다항 회귀 (Polynomial Regression)
독립 변수와 종속 변수 간의 비선형 관계 모델링
$$ y = \beta_{0} + \beta_{1}x + \beta_{2}x^2 + \beta_{3}x^3 + ⋯ + \beta_{n}x^n + ϵ $$
4) 리지 회귀 (Ridge Regression)
- 다중 선형 회귀의 일종
- L2 정규화 사용
- 회귀 계수의 크기를 작게 만들어 overfitting 방지
$$ y=\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2} + ⋯ + \beta_{n}x_{n} +λ\sum_{j=1}^{n}=\beta_{j}^{2} $$
5) 라쏘 회귀 (Lasso Regression)
- L1 정규화 사용 → 불필요한 회귀 계수 0으로 만듦 (변수 선택)
$$ y=\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2} + ⋯ + \beta_{n}x_{n} +λ\sum_{j=1}^{n}=|\beta| $$
6) 엘라스틱 넷 (Elastic Net)
- Ridge + Lasso
- L1 & L2 정규화를 동시에!
$$ y=\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2} + ⋯ + \beta_{n}x_{n} +λ_{1}\sum_{j=1}^{n}\beta_{j}^{2}+λ_{2}\sum_{j=1}^{n}|\beta| $$
7) 회귀 스플라인 (Regression Splines)
- 데이터의 비선형 관계를 더 유연하게 모델링하기 위해 구간별 다항식 사용
- 구간마다 모델 방정식 다름
- 각 구간을 스플라인이라 함
3. 학습 파라미터
- 모델이 학습을 통해 데이터로부터 직접적으로 학습하는 매개변수
- 모델이 데이터를 통해 조정하는 값
- ⇒ 모델의 예측 결과에 직접적인 영향
- ex) 가중치 (Weights, β), 절편(Intercept,β0)
4. 하이퍼 파라미터
- 학습 과정 전에 설정되는 매개변수 (사용자가 설정)
- 모델이 학습하는 동안 조정되지 않음!!
- ex) learning rate, epochs, batch size
- Grid Search, Random Serach, Bayesian Optimization 등을 통해 최적의 하이퍼파라미터 찾음
5. 과적합 (Over-fitting)
1) 과적합이란?
- 훈련데이터에만 너무 잘 맞아, 새로운 데이터에 대해 일반화 능력 떨어짐
(이미 갖고 있는 데이터에 대해서는 잘 설명하지만, 새로운 데이터에 대해서는 설명 못함)
- 훈련 데이터의 노이즈나 세부 사항까지 학습해, 실제로 중요한 패턴은 잡아내지 못하는 경우
2) 원인
- 모델의 복잡도가 데이터의 복잡도보다 높을 때
- 훈련 데이터가 부족한 경우
- 데이터에 노이즈가 많은 경우 → 모델이 노이즈까지 학습 →. 일반화 능력 떨어짐
3) 방지 방법
- 교차 검증
- 정규화 (L1, L2)
- 단순한 모델 사용
- 훈련 데이터 확장
6. 다중공선성
1) 다중공선성이란?
독립 변수들(입력값) 간에 상관관계가 큰 경우→ 학습할때마다 모델의 수식이 많이 변경될 수 있음
→ 학습할 때마다 회귀계수가 불안정하게 바뀜, 작은 데이터 변화에도 크게 변함
2) 진단방법
- VIF (Variance Inflation Factor, 분산 팽창 계수)
- 각 독립 변수와 다른 모든 독립 변수에 대해 회귀 분석 → R^2 이용하여 VIF 계산
- VIF 10 초과하면 다중공선성 높음$$ VIF_{i}=\frac{1}{1-R_{i}^2} $$
- Correlation Matrix (상관행렬)
상관 행렬을 통해 높은 상관관계가 있는 변수 찾음
- 조건수
조건수 30 초과하면 다중공선성 높음
7. 회귀계수
- 독립변수와 종속변수 간의 관계를 나타내는 파라미터
- 독립변수의 변화에 따른 종속변수의 변화 나타냄
- 회귀계수가 클수록 독립변수의 변화가 종속변수에 큰 영향 미침을 의미
- 양수 계수 : 양의 상관관계
- 음수 계수 : 음의 상관관계$$ y = \beta_{0} + \beta_{1}x_{1} + \beta_{2}x_{2} + ⋯ + \beta_{n}x_{n} +\epsilon $$$$ \beta_{1}, \beta_{2}, \beta_{3}, ⋯, \beta_{n} $$
- 위 식에서 회귀계수 $ \beta_{1}, \beta_{2}, \beta_{3}, ⋯, \beta_{n} $
8. 공분산
- 두 변수 간의 상관관계 나타냄
- 한 변수의 변화가 다른 변수의 변화와 어떻게 관련되는지 측정
- 두 변수의 편차 곱의 평균
두 변수 X, Y에 대한 공분산 (X,Y bar는 평균을 의미함!)
- 양의 공분산 : 하나가 증가하면 다른 하나도 증가0의 공분산 : 두 변수 간에 선형 상관관계가 없을 때
- 음의 공분산 : 하나가 증가하면 다른 하나는 감소
$$ Cov(X,Y) = \frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})(Y_{i}-\bar{Y}) $$
9. LOF : 밀도를 고려한 인자
- 데이터 포인트가 주변 데이터 포인트에 비해 얼마나 고립되어 있는지 측정
- 밀도 기반의 이상치 탐지 기법
'ASAC 5기 > Machine Learning' 카테고리의 다른 글
07. [Clustering] DBSCAN (0) | 2024.08.13 |
---|---|
06. Regression Model (0) | 2024.07.22 |
04. 분류의 성능 평가 지표 (0) | 2024.06.27 |
03. 데이터 전처리 및 인코딩 (0) | 2024.06.18 |
02. 교차 검증 (0) | 2024.06.18 |
댓글