ASAC 5기/Machine Learning

06. Regression Model

망고 ෆ 2024. 7. 22. 12:03

🎀 Regression Model 종류

1. 단순 선형 회귀

1) 특징

  • underfitting 일어날 가능성 존재
  • 절편
  • 기울기 : 독립 변수와 종속 변수 간의 관계의 방향, 강도 나타냄
  • 오차 & 잔차 : 예측값과 실제값의 차이
    • 오차 : 모집단 기준
    • 잔차 : 표본집단 기준

 

2) 최소자승법(OLS)

  • 잔차 제곱의 합(RSS) 최소화하는 방식으로 회귀 계수 추정
  • BLUE
  • 편향이 없는 것 중, 분산이 젤 작은거 찾는것
  • 선형 회귀 분석에서 최소자승법을 적용
  • 회귀 계수 β 추정하는 데 사용

 

3) 회귀 계수 가설검정

  • 귀무 가설 : 회귀 계수가 0이다 (독립변수가 종속변수에 영향을 미치지 않는다!)
  • 대립 가설 : 회귀 계수가 0이 아니다 (독립변수가 종속변수에 영향을 미친다)
  • 회귀 검수 검정 : T분포
  • 모델 자체의 유의성 검정 : F분포

 

4) 선형회귀의 적합성 평가 및 문제점

  • R^2 (R-Squared 결정계수)
    • 모델이 종속 변수 분산을 얼마나 잘 설명하는지
    • 모델을 잘 설명한다고 예측력이 높은 것은 아님 (과적합 발생할 수 있음!!)
    • 독립변수 추가하면 R^2 무조건 증가
    • (모델 복잡성 증가로 인한 것일뿐 실제로 모델 예측력이 높아진건 아님)
  • $$ R^2 = 1-\frac{\sum_{i=1}^{n}(y_{i}-예측값)^2}{\sum_{i=1}^{n}(y_{i}-평균)^2} $$
  •  
  • MSE
    • 이상치가 있는 경우, MSE값이 크게 왜곡될 수 있음
    • 제곱을 하기때문에, 실제값과 차이를 직관적으로 해석하기 어려움
  • RMSE
    • 이상치가 있는 경우, RMSE값이 크게 왜곡될 수 있음

 

 

2. 다중 선형 회귀

1) 단점

  • 독립변수 많아짐 → 모델 복잡성 증가 → 과접합, 다중공선성 문제발생
  • 회귀 계수가 불안정해짐

 

2) 평가지표

  • R-squard Pred
  • R-squard adjust

 

3) VIF

  • 다중공선성을 보여주는 지표

 

4) Stepwise regression

    : 회귀에서 변수 선택 방법 중 하나

  • 전진 선택(Forward Selection)
    • 모든 변수가 포함되지 않은 상태에서 시작
    • 가장 유의미한 변수부터 하나씩 추가
    • 새로 추가된 변수의 유의성 평가
    • 더이상 유의미한 변수가 없을때까지 반복
  • 후진 제거 (Backward Elimination)
    • 모든 변수를 포함한 상태에서 시작
    • 가장 유의미하지 않은 변수 제거
    • 남아있는 변수들의 유의성 평가
    • 더이상 유의미하지 않은 변수를 제거할 수 없을때까지 반복
  • 단계적 선택 (Stepwise Selection)
    • 전진 선택 + 후진 제거
    • 변수 추가 & 제거 반복 → 최적의 모델 찾음

 

5) 해결책

  • 계수축소법 이용 : Ridge, Lasso, 엘라스틱넷
  • 엘라스틱넷 : Ridge, Lasso의 중간정도

 

 

3. 계수 축소법

  • 다중공선성이 존재하거나, 변수의 수가 샘플 수보다 많은 경우에 사용
  • Ridge, Lasso, 엘라스틱넷

 

 

4. 로지스틱 회귀

  • x값을 통해 대상
  • 주로 분류 문제에 사용
  • 출력값이 0과 1 사이의 확률값
  • 오즈비 = 성공확률/실패확률
  • mle : 확률값이 큰 쪽으로 가게끔하는 알고리즘