ASAC 5기/Machine Learning
06. Regression Model
망고 ෆ
2024. 7. 22. 12:03
🎀 Regression Model 종류
1. 단순 선형 회귀
1) 특징
- underfitting 일어날 가능성 존재
- 절편
- 기울기 : 독립 변수와 종속 변수 간의 관계의 방향, 강도 나타냄
- 오차 & 잔차 : 예측값과 실제값의 차이
- 오차 : 모집단 기준
- 잔차 : 표본집단 기준
2) 최소자승법(OLS)
- 잔차 제곱의 합(RSS) 최소화하는 방식으로 회귀 계수 추정
- BLUE
- 편향이 없는 것 중, 분산이 젤 작은거 찾는것
- 선형 회귀 분석에서 최소자승법을 적용
- 회귀 계수 β 추정하는 데 사용
3) 회귀 계수 가설검정
- 귀무 가설 : 회귀 계수가 0이다 (독립변수가 종속변수에 영향을 미치지 않는다!)
- 대립 가설 : 회귀 계수가 0이 아니다 (독립변수가 종속변수에 영향을 미친다)
- 회귀 검수 검정 : T분포
- 모델 자체의 유의성 검정 : F분포
4) 선형회귀의 적합성 평가 및 문제점
- R^2 (R-Squared 결정계수)
- 모델이 종속 변수 분산을 얼마나 잘 설명하는지
- 모델을 잘 설명한다고 예측력이 높은 것은 아님 (과적합 발생할 수 있음!!)
- 독립변수 추가하면 R^2 무조건 증가
- (모델 복잡성 증가로 인한 것일뿐 실제로 모델 예측력이 높아진건 아님)
- $$ R^2 = 1-\frac{\sum_{i=1}^{n}(y_{i}-예측값)^2}{\sum_{i=1}^{n}(y_{i}-평균)^2} $$
- MSE
- 이상치가 있는 경우, MSE값이 크게 왜곡될 수 있음
- 제곱을 하기때문에, 실제값과 차이를 직관적으로 해석하기 어려움
- RMSE
- 이상치가 있는 경우, RMSE값이 크게 왜곡될 수 있음
2. 다중 선형 회귀
1) 단점
- 독립변수 많아짐 → 모델 복잡성 증가 → 과접합, 다중공선성 문제발생
- 회귀 계수가 불안정해짐
2) 평가지표
- R-squard Pred
- R-squard adjust
3) VIF
- 다중공선성을 보여주는 지표
4) Stepwise regression
: 회귀에서 변수 선택 방법 중 하나
- 전진 선택(Forward Selection)
- 모든 변수가 포함되지 않은 상태에서 시작
- 가장 유의미한 변수부터 하나씩 추가
- 새로 추가된 변수의 유의성 평가
- 더이상 유의미한 변수가 없을때까지 반복
- 후진 제거 (Backward Elimination)
- 모든 변수를 포함한 상태에서 시작
- 가장 유의미하지 않은 변수 제거
- 남아있는 변수들의 유의성 평가
- 더이상 유의미하지 않은 변수를 제거할 수 없을때까지 반복
- 단계적 선택 (Stepwise Selection)
- 전진 선택 + 후진 제거
- 변수 추가 & 제거 반복 → 최적의 모델 찾음
5) 해결책
- 계수축소법 이용 : Ridge, Lasso, 엘라스틱넷
- 엘라스틱넷 : Ridge, Lasso의 중간정도
3. 계수 축소법
- 다중공선성이 존재하거나, 변수의 수가 샘플 수보다 많은 경우에 사용
- Ridge, Lasso, 엘라스틱넷
4. 로지스틱 회귀
- x값을 통해 대상
- 주로 분류 문제에 사용
- 출력값이 0과 1 사이의 확률값
- 오즈비 = 성공확률/실패확률
- mle : 확률값이 큰 쪽으로 가게끔하는 알고리즘