본문 바로가기

ASAC 5기/Machine Learning10

04. 분류의 성능 평가 지표 1. 정확도 (Accuracy)실제 데이터에서 예측 데이터가 얼마나 같은지 판단정확도 (Accuracy) = 예측 결과가 동일한 데이터 건수 / 전체 예측 건수가장 직관적이고, 단순하게 평가할 수 있는 지표지만, 불균형한 레이블 값 분포에서는 신중하게 사용해야 한다.만약, 100개의 데이터 중, 90개의 데이터 레이블이 0, 10개의 데이터 레이블이 1인데, 무조건 0으로 반환하는 모델을 사용했을 경우, 정확도가 90%가 나오게 되는데 이는 무의미한 수치이기 때문이다.따라서, Accuracy는 불균형한 레이블 데이터 세트에서는 성능 평가 지표로 사용하면 안된다!   2. 오차 행렬 (Confusion Matrix)오차 행렬은 이진 분류에서 사용할 수 있는 평가지표이다.이진 분류의 예측 오류가 얼마인지뿐만.. 2024. 6. 27.
03. 데이터 전처리 및 인코딩 1. 결측치 처리데이터를 처리하는 과정에서 결측치를 처리해야 하는 방법을 선정하는 것이 중요하다.Null값이 많지 않다면 피처의 평균값으로 대체할 수도 있고, Null값이 너무 많다면 그 피처는 드랍할 수도 있다.하지만, 만약 그 피처가 중요한 피처이고 단순히 평균값이나 0으로 대체할 경우에 예측 왜곡이 심해질 수도 있으므로 이 결측치를 잘 채우는 것이 중요하다!  2. 인코딩또, 중요한 것은 사이킷런에서 문자열은 입력값으로 허용하지 않으므로, 문자열 값들은 모두 숫자형으로 인코딩 해야 한다. 1) Label Encoding문자열로 구성된 카테고리 형태의 데이터를 머신러닝에서 이용할 수 있도록 카테고리를 숫자형으로 바꿔주는 것이다.from sklearn.preprocessing import LabelEn.. 2024. 6. 18.
02. 교차 검증 우선, overfitting 이란?학습 데이터에만 과하게 최적화된 상태로 학습이 진행되어 정확한 예측을 할 수 없는 상태 교차 검증이 필요한 이유는?복잡한 모델에서 overfitting이 일어날 수 있는데, 이를 방지하고 데이터 분할 시 발생하는 편향을 줄여 성능을 높이기 위해 사용 1. K-Fold 교차 검증1) 방법K개의 데이터 폴드 세트를 만들어서 k번만큼 각 폴드 세트에 대해 학습과 검증을 번갈아 수행하는 것이다.만약 K=5로 지정했다면, 전체 데이터셋을 5등분 한 뒤,첫 번째 학습 검증에서는 처음 1세트는 검증, 나머지 4세트는 학습 데이터 세트로 설정하고 평가를 진행한다.두 번째 학습 검증에서는 2번째에 위치한 1세트를 검증, 나머지 세트는 학습 데이터로 설정하고 평가한다.이와 같이 5번을 진.. 2024. 6. 18.
01. Numpy 기초 Numpy 1. 특징python에서 수치연산을 가능하게 함벡터 연산 지원데이터를 처리하는 python의 기본 패키지   2-1. arrayarray를 사용하여 적은 메모리로 많은 데이터를 빠르게 처리 가능숫자, 문자, 리스트 등의 값을 모아둘 수 있음차원도 인식 가능import numpy as npx_arr = np.array(x)x_arr numpy의 array함수에 리스트를 넣으면 배열(array)로 반환하는 것을 볼 수 있다. x = [1,2,3,4,5]y = [10,20,30,40,50]x_arr = np.array(x) y_arr = np.array(y)x_arr + y_arr python을 통해 두 배열을 더하려면 for문을 사용해야 했겠지만,numpy에서는 단순 덧셈으로 쉽게.. 2024. 4. 8.