ASAC 5기/Machine Learning10 10. Association Rule Mining (연관규칙분석) 1. Association Rule Mining이란?변수들 (feature) 간데 얼마나 연관성을 갖는지인과관계까지 알 수 있는 것은 아님! 2. 용어Antecedent : " IF " 조건절)Consequent : " Then " (결과절)Item set : 조건절과 결과절을 구성하는 item들의 집합조건절과 결과절에는 공통된 item 존재하지 않음! 3. A → B (A를 사면 B도 사더라) 1) Support (지지도) Support ( A → B) = P(A) or P(A,B) 이 때, P(A) : 조건절이 발생할 확률이고, P(A,B)는 두개가 함께 발생할 확률을 말한다. 원래 이론은 P(A)를 의미하지만, 실제로는 P(A,B) 를 사용한다고 한다. 2) C.. 2024. 8. 13. 09. [Clustering] Clustering 평가지표 1. Silhouette Coefficient (실루엣 계수) 1) 실루엣 계수란?개별 데이터가 할당된 군집 내 데이터와 얼마나 가깝게 군집화 되어있고, 다른 군집에 있는 데이터와는 얼마나 멀리 분리되어 있는지 평가1에 가까울수록 : 근처 군집과 멀리 떨어져 있다0에 가까울수록 : 근처 군집과 가까움-1 ~ 1 사이의 값 (1에 가까울수록 성능이 좋은 것! 2) 수식$$ s(i) = \frac{b(i)-a(i)}{max(a(i),b(i))} $$a(i) : i라는 객체로부터 자기와 같은 군집에 속하는 다른 객체들과의 거리의 평균 (자기와 같은 군집에 속하는 객체들과의 거리의 평균) ⇒ 작을수록 좋음b(i) : i로부터 다른 군집 내 객체들과의 거리 평균의 최솟값 (다른 군집들과 평.. 2024. 8. 13. 08. [Clustering] Hierarchical Clustering 1. Hierarchical Clustering 이란?데이터를 가까운 집단부터 순차적이며 계층적으로 군집화 하는 방식클러스터 수는 사전에 설정하지 않아도 됨dendrogram을 그릴 수 있으며 만들어진 dendrogram에서 원하는 지점에서 cutting하여 군집 개수 설정 할 수 있음 2. 종류 1) Agglomerative Clustering (상향식) : 각각의 데이터 포인터가 하나의 군집 → 병합 2) Divisive Clustering (하향식) : 전체가 하나의 군집 → 영역을 분화 3. 거리 계산 방식single linkage : 군집 내 데이터 포인트 간의 거리 중 가장 짧은 거리 이용complete linkage : 군집 내 데이터 포인트 .. 2024. 8. 13. 07. [Clustering] DBSCAN 1. DBSCAN 이란?밀도 기반 클러스터링밀도가 높은 부분을 군집화임의의 모양의 클러스터도 찾아낼 수 있음클러스터의 수 지정할 필요 X어느점부터 시작해도 상관없는 편 2. 방법점 P로부터 eps (반경) 내에 minPts 개 존재하면 하나의 군집으로 인식그 점을 중심으로 군집이 되며 그 점을 core point라고 함core point가 서로 다른 core point의 군집 일부가 되면 그 군집을 서로 연결되어 있다고 하며 하나의 군집으로 연결border point : 군집에는 속하지만 core point는 안되는 점 (eps 내에 minPts 만족 X)noise point : 어느 군집에도 속하지 못하는 점 3. 용어 설명 및 방법 1) directly density-reachable .. 2024. 8. 13. 06. Regression Model 🎀 Regression Model 종류1. 단순 선형 회귀1) 특징underfitting 일어날 가능성 존재절편기울기 : 독립 변수와 종속 변수 간의 관계의 방향, 강도 나타냄오차 & 잔차 : 예측값과 실제값의 차이오차 : 모집단 기준잔차 : 표본집단 기준 2) 최소자승법(OLS) 잔차 제곱의 합(RSS) 최소화하는 방식으로 회귀 계수 추정BLUE편향이 없는 것 중, 분산이 젤 작은거 찾는것선형 회귀 분석에서 최소자승법을 적용회귀 계수 β 추정하는 데 사용 3) 회귀 계수 가설검정귀무 가설 : 회귀 계수가 0이다 (독립변수가 종속변수에 영향을 미치지 않는다!)대립 가설 : 회귀 계수가 0이 아니다 (독립변수가 종속변수에 영향을 미친다)회귀 검수 검정 : T분포모델 자체의 유의성 검정 : F분포 4) 선.. 2024. 7. 22. 05. Linear Regression 관련 용어 🍨 진행과정데이터 수집 → 분할 → 전처리 → EDA → 주요 입력변수 선정 → 데이터 증가→ 모델 선정 → HPT 선정 → 모델 학습 → 모델 검증 및 테스트 📌 Linear Regression 관련 알아야 할 용어들1. Linear Regression이란?두 개 이상의 변수들 간의 선형 관계를 모델링독립 변수의 값을 통해 종속 변수 예측직선 형태수식y : 종속 변수x : 독립 변수β0 : 절편 (독립 변수가 0일 때 종속 변수의 예상값)β1 : 기울기 (독립 변수의 단위 변화에 따른 종속 변수의 변화량), 회귀계수ϵ : 오차항 (실제값과 예측값 간의 차이)$$ y = \beta_{0} + \beta_{1}x + \epsilon $$ 2. Linear Regression 종류1) 단순 선형 .. 2024. 7. 17. 이전 1 2 다음