티스토리

LCY

검색하기

데이터 수집 및 정제

카테고리 없음

데이터 수집 및 정제

PIAI 2022. 5. 22. 18:43

데이터 수집

분석에 필요한 데이터의 종류, 형태, 발생주기, 수집 기간 및 방법 등 데이터의 특성을 명확히 파악하고 정의하는 것

모든 사람들에게 동일한 의미를 제공하는 일관성과 신뢰성이 있는 데이터 확보
데이터의 항목, 속성, 발생 주기, 수집방법 및 기간 등의 특징/속성을 기술

데이터 명	형태	데이터 소스	발생주기	수집방법	수집기간	수집가능성	주요 특성
종점온도	연속형	전로조업실적	Charge당	담당자 요청	17/1/1~	O	자동 측정
발화점	범주형	...	....	....	...	...	...

분석에 필요한 데이터의 항목, 저장위치, 발생주기, 수집 방법 및 기간, 속성등을 기술

샘플링

무작위(random) 샘플링: 무작위로 추출, 각 자료선택의 확률은 동일

층별화 샘플링: 유사 특성별 층별화하고, 무작위로 자료 선택

계통 샘플링: 매 k번째 자료 선택

서브그룹 샘플링: 매 t시간별 n 단위 샘플링

불균형 샘플링

SMOTE: 적은 데이터 셋의 개별데이터들의 KNN 적용 후, 샘플과 이웃간의 랜덤하게 데이터 생성

BLSMOTE: borderline에 있는 데이터는 불균형에 크게 영향을 미친다고 판단하여, 해당 데이터셋만 smote적용

DBSMOTE: DBSCAN 생성 후, cluster내에서 smote 적용

데이터 정제

데이터 확인을 통해 결측치나 이상치에 대한 적절한 처리를 통해 데이터 품질을 보강

데이터의 품질 (통계량, 분포 등) 확인을 통해, 결측치/이상치 판단
결측치/이상치 발생원인 파악
결측치/이상치 처리방법 검토 및 적용
결측치/이상치 처리 후 데이터 품질 재확인

결측치 처리 방법

연속형 변수

평균값으로 대체
중앙값으로 대체
최소, 최대의 중앙값((min+max) / 2)으로 대체
분포 기반 대체
모델(회귀분석, Tree등)에 대한 대체

범주형 변수

최빈값(mode, 빈도가 가장 많은)으로 대체
분포 기반 대체
모델(Tree 등)에 의한 대체

이상치

데이터 값이 발생할 수 있는 범위를 벗어난 데이터를 의미(프로세스 불안정, 급격한 변동 등)

이상치는 분석결과를 왜곡시킬 수 있으므로 적절한 처리가 필요
이상치라고해서 무조건 의미 없고 잘못된 값이라는 의미는 아니므로 충분한 사전 검토가 필요
판단 기준 : 평균 +-3 * 표준편차, Q3/Q1 +- 1.5*IQR ( 4분위를 벗어난 경우)

크기 조정(scaler) 방법

Standard scaler (평균-표준편차 척도화)

평균-표준편차 척도화 (평균 = 0, 표준편차 = 1)
평균을 0으로 하므로, 이상치의 영향이 큼 (가정: 이상치가 없어야함)

Min-Max scaler (최대-최소 척도화)

최대-최소값을 이용한 변환(최소=0, 최대=1)
이상치의 영향이 큼
(xi-min(x)) / (max(x) - min(x))

Robust sclaer

분위수를 이용한 변환 (중앙값 = 0, IQR = 1)
이상치의 영향을 덜 받음
(xi - Q2(x)) / (Q3(x) - Q1(x))