본문 바로가기
ASAC 5기/Machine Learning

05. Linear Regression 관련 용어

by 망고 ෆ 2024. 7. 17.

🍨 진행과정

데이터 수집 → 분할 → 전처리 → EDA → 주요 입력변수 선정 → 데이터 증가

→ 모델 선정 → HPT 선정 → 모델 학습 → 모델 검증 및 테스트

 

 

📌 Linear Regression 관련 알아야 할 용어들

1. Linear Regression이란?

  • 두 개 이상의 변수들 간의 선형 관계를 모델링
  • 독립 변수의 값을 통해 종속 변수 예측
  • 직선 형태
  • 수식
    • y : 종속 변수
    • x : 독립 변수
    • β0 : 절편 (독립 변수가 0일 때 종속 변수의 예상값)
    • β1 : 기울기 (독립 변수의 단위 변화에 따른 종속 변수의 변화량), 회귀계수
    • ϵ : 오차항 (실제값과 예측값 간의 차이)

$$ y = \beta_{0} + \beta_{1}x + \epsilon $$  

 

 

2. Linear Regression 종류

1) 단순 선형 회귀 (Simple Linear Regression)

    하나의 독립 변수와 하나의 종속 변수 간의 관계 모델링

$$ y = \beta_{0} + \beta_{1}x + \epsilon $$

 

 

2) 다중 선형 회귀 (Multiple Linear Regression)

    두 개 이상의 독립 변수와 하나의 종속 변수 간의 관계 모델링$$ y = \beta_{0} + \beta_{1}x_{1} + \beta_{2}x_{2} + ⋯ + \beta_{n}x_{n} +\epsilon $$

 

 

3) 다항 회귀 (Polynomial Regression)

    독립 변수와 종속 변수 간의 비선형 관계 모델링

$$ y = \beta_{0} + \beta_{1}x + \beta_{2}x^2 + \beta_{3}x^3 + ⋯ + \beta_{n}x^n + ϵ $$

 

 

4) 리지 회귀 (Ridge Regression)

  • 다중 선형 회귀의 일종
  • L2 정규화 사용
  • 회귀 계수의 크기를 작게 만들어 overfitting 방지

$$ y=\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2} + ⋯ + \beta_{n}x_{n} +λ\sum_{j=1}^{n}=\beta_{j}^{2} $$

 

 

5) 라쏘 회귀 (Lasso Regression)

  • L1 정규화 사용 → 불필요한 회귀 계수 0으로 만듦 (변수 선택)

$$ y=\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2} + ⋯ + \beta_{n}x_{n} +λ\sum_{j=1}^{n}=|\beta| $$

 

 

6) 엘라스틱 넷 (Elastic Net)

  • Ridge + Lasso
  • L1 & L2 정규화를 동시에!

$$ y=\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2} + ⋯ + \beta_{n}x_{n} +λ_{1}\sum_{j=1}^{n}\beta_{j}^{2}+λ_{2}\sum_{j=1}^{n}|\beta| $$

 

 

7) 회귀 스플라인 (Regression Splines)

  • 데이터의 비선형 관계를 더 유연하게 모델링하기 위해 구간별 다항식 사용
  • 구간마다 모델 방정식 다름
  • 각 구간을 스플라인이라 함

 

 

3. 학습 파라미터

  • 모델이 학습을 통해 데이터로부터 직접적으로 학습하는 매개변수
  • 모델이 데이터를 통해 조정하는 값
  • ⇒ 모델의 예측 결과에 직접적인 영향
  • ex) 가중치 (Weights, β), 절편(Intercept,β0)

 

 

4. 하이퍼 파라미터

  • 학습 과정 전에 설정되는 매개변수 (사용자가 설정)
  • 모델이 학습하는 동안 조정되지 않음!!
  • ex) learning rate, epochs, batch size
  • Grid Search, Random Serach, Bayesian Optimization 등을 통해 최적의 하이퍼파라미터 찾음

 

 

5. 과적합 (Over-fitting)

1) 과적합이란?

  • 훈련데이터에만 너무 잘 맞아, 새로운 데이터에 대해 일반화 능력 떨어짐

      (이미 갖고 있는 데이터에 대해서는 잘 설명하지만, 새로운 데이터에 대해서는 설명 못함)

  • 훈련 데이터의 노이즈나 세부 사항까지 학습해, 실제로 중요한 패턴은 잡아내지 못하는 경우

 

2) 원인

  • 모델의 복잡도가 데이터의 복잡도보다 높을 때
  • 훈련 데이터가 부족한 경우
  • 데이터에 노이즈가 많은 경우 → 모델이 노이즈까지 학습 →. 일반화 능력 떨어짐

 

3) 방지 방법

  • 교차 검증
  • 정규화 (L1, L2)
  • 단순한 모델 사용
  • 훈련 데이터 확장

 

 

6. 다중공선성

1) 다중공선성이란?

     독립 변수들(입력값) 간에 상관관계가 큰 경우→ 학습할때마다 모델의 수식이 많이 변경될 수 있음

      → 학습할 때마다 회귀계수가 불안정하게 바뀜, 작은 데이터 변화에도 크게 변함

 

 

2) 진단방법

  • VIF (Variance Inflation Factor, 분산 팽창 계수)
    • 각 독립 변수와 다른 모든 독립 변수에 대해 회귀 분석 → R^2 이용하여 VIF 계산
    • VIF 10 초과하면 다중공선성 높음$$ VIF_{i}=\frac{1}{1-R_{i}^2} $$
  • Correlation Matrix (상관행렬)

       상관 행렬을 통해 높은 상관관계가 있는 변수 찾음

  • 조건수

       조건수 30 초과하면 다중공선성 높음

 

 

 

7.  회귀계수

  • 독립변수와 종속변수 간의 관계를 나타내는 파라미터
  • 독립변수의 변화에 따른 종속변수의 변화 나타냄
  • 회귀계수가 클수록 독립변수의 변화가 종속변수에 큰 영향 미침을 의미
  • 양수 계수 : 양의 상관관계
  • 음수 계수 : 음의 상관관계$$ y = \beta_{0} + \beta_{1}x_{1} + \beta_{2}x_{2} + ⋯ + \beta_{n}x_{n} +\epsilon $$$$ \beta_{1}, \beta_{2}, \beta_{3}, ⋯, \beta_{n} $$
  • 위 식에서 회귀계수 $ \beta_{1}, \beta_{2}, \beta_{3}, ⋯, \beta_{n} $

 

 

8. 공분산

  • 두 변수 간의 상관관계 나타냄
  • 한 변수의 변화가 다른 변수의 변화와 어떻게 관련되는지 측정
  • 두 변수의 편차 곱의 평균

두 변수 X, Y에 대한 공분산 (X,Y bar는 평균을 의미함!)

  • 양의 공분산 : 하나가 증가하면 다른 하나도 증가0의 공분산 : 두 변수 간에 선형 상관관계가 없을 때
  • 음의 공분산 : 하나가 증가하면 다른 하나는 감소

$$ Cov(X,Y) = \frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})(Y_{i}-\bar{Y}) $$

 

 

 

9. LOF : 밀도를 고려한 인자

  • 데이터 포인트가 주변 데이터 포인트에 비해 얼마나 고립되어 있는지 측정
  • 밀도 기반의 이상치 탐지 기법

'ASAC 5기 > Machine Learning' 카테고리의 다른 글

07. [Clustering] DBSCAN  (0) 2024.08.13
06. Regression Model  (0) 2024.07.22
04. 분류의 성능 평가 지표  (0) 2024.06.27
03. 데이터 전처리 및 인코딩  (0) 2024.06.18
02. 교차 검증  (0) 2024.06.18

댓글