카테고리 없음

데이터 수집 및 정제

PIAI 2022. 5. 22. 18:43

데이터 수집

분석에 필요한 데이터의 종류, 형태, 발생주기, 수집 기간 및 방법 등 데이터의 특성을 명확히 파악하고 정의하는 것

  • 모든 사람들에게 동일한 의미를 제공하는 일관성과 신뢰성이 있는 데이터 확보
  • 데이터의 항목, 속성, 발생 주기, 수집방법 및 기간 등의 특징/속성을 기술
데이터 명 형태 데이터 소스 발생주기 수집방법 수집기간 수집가능성 주요 특성
종점온도 연속형 전로조업실적 Charge당 담당자 요청 17/1/1~ O 자동 측정
발화점 범주형 ... .... .... ... ... ...

분석에 필요한 데이터의 항목, 저장위치, 발생주기, 수집 방법 및 기간, 속성등을 기술

 

샘플링

무작위(random) 샘플링: 무작위로 추출, 각 자료선택의 확률은 동일

층별화 샘플링: 유사 특성별 층별화하고, 무작위로 자료 선택

계통 샘플링: 매 k번째 자료 선택

서브그룹 샘플링: 매 t시간별 n 단위 샘플링

 

불균형 샘플링

SMOTE: 적은 데이터 셋의 개별데이터들의 KNN 적용 후, 샘플과 이웃간의 랜덤하게 데이터 생성

BLSMOTE: borderline에 있는 데이터는 불균형에 크게 영향을 미친다고 판단하여, 해당 데이터셋만 smote적용

DBSMOTE: DBSCAN 생성 후, cluster내에서 smote 적용

 

데이터 정제

데이터 확인을 통해 결측치나 이상치에 대한 적절한 처리를 통해 데이터 품질을 보강

 

  1. 데이터의 품질 (통계량, 분포 등) 확인을 통해, 결측치/이상치 판단
  2. 결측치/이상치 발생원인 파악
  3. 결측치/이상치 처리방법 검토 및 적용
  4. 결측치/이상치 처리 후 데이터 품질 재확인

결측치 처리 방법

연속형 변수

  1. 평균값으로 대체
  2. 중앙값으로 대체
  3. 최소, 최대의 중앙값((min+max) / 2)으로 대체
  4. 분포 기반 대체
  5. 모델(회귀분석, Tree등)에 대한 대체

범주형 변수

  1. 최빈값(mode, 빈도가 가장 많은)으로 대체
  2. 분포 기반 대체
  3. 모델(Tree 등)에 의한 대체

이상치

데이터 값이 발생할 수 있는 범위를 벗어난 데이터를 의미(프로세스 불안정, 급격한 변동 등)

  • 이상치는 분석결과를 왜곡시킬 수 있으므로 적절한 처리가 필요
  • 이상치라고해서 무조건 의미 없고 잘못된 값이라는 의미는 아니므로 충분한 사전 검토가 필요
  • 판단 기준 : 평균 +-3 * 표준편차, Q3/Q1 +- 1.5*IQR ( 4분위를 벗어난 경우)

 

크기 조정(scaler) 방법

 

Standard scaler (평균-표준편차 척도화)

  • 평균-표준편차 척도화 (평균 = 0, 표준편차 = 1)
  • 평균을 0으로 하므로, 이상치의 영향이 큼 (가정: 이상치가 없어야함)

Min-Max scaler (최대-최소 척도화)

  • 최대-최소값을 이용한 변환(최소=0, 최대=1)
  • 이상치의 영향이 큼
  • (xi-min(x)) / (max(x) - min(x))

Robust sclaer

  • 분위수를 이용한 변환 (중앙값 = 0, IQR = 1)
  • 이상치의 영향을 덜 받음
  • (xi - Q2(x)) / (Q3(x) - Q1(x))