카테고리 없음
데이터 수집 및 정제
PIAI
2022. 5. 22. 18:43
데이터 수집
분석에 필요한 데이터의 종류, 형태, 발생주기, 수집 기간 및 방법 등 데이터의 특성을 명확히 파악하고 정의하는 것
- 모든 사람들에게 동일한 의미를 제공하는 일관성과 신뢰성이 있는 데이터 확보
- 데이터의 항목, 속성, 발생 주기, 수집방법 및 기간 등의 특징/속성을 기술
데이터 명 | 형태 | 데이터 소스 | 발생주기 | 수집방법 | 수집기간 | 수집가능성 | 주요 특성 |
종점온도 | 연속형 | 전로조업실적 | Charge당 | 담당자 요청 | 17/1/1~ | O | 자동 측정 |
발화점 | 범주형 | ... | .... | .... | ... | ... | ... |
분석에 필요한 데이터의 항목, 저장위치, 발생주기, 수집 방법 및 기간, 속성등을 기술
샘플링
무작위(random) 샘플링: 무작위로 추출, 각 자료선택의 확률은 동일
층별화 샘플링: 유사 특성별 층별화하고, 무작위로 자료 선택
계통 샘플링: 매 k번째 자료 선택
서브그룹 샘플링: 매 t시간별 n 단위 샘플링
불균형 샘플링
SMOTE: 적은 데이터 셋의 개별데이터들의 KNN 적용 후, 샘플과 이웃간의 랜덤하게 데이터 생성
BLSMOTE: borderline에 있는 데이터는 불균형에 크게 영향을 미친다고 판단하여, 해당 데이터셋만 smote적용
DBSMOTE: DBSCAN 생성 후, cluster내에서 smote 적용
데이터 정제
데이터 확인을 통해 결측치나 이상치에 대한 적절한 처리를 통해 데이터 품질을 보강
- 데이터의 품질 (통계량, 분포 등) 확인을 통해, 결측치/이상치 판단
- 결측치/이상치 발생원인 파악
- 결측치/이상치 처리방법 검토 및 적용
- 결측치/이상치 처리 후 데이터 품질 재확인
결측치 처리 방법
연속형 변수
- 평균값으로 대체
- 중앙값으로 대체
- 최소, 최대의 중앙값((min+max) / 2)으로 대체
- 분포 기반 대체
- 모델(회귀분석, Tree등)에 대한 대체
범주형 변수
- 최빈값(mode, 빈도가 가장 많은)으로 대체
- 분포 기반 대체
- 모델(Tree 등)에 의한 대체
이상치
데이터 값이 발생할 수 있는 범위를 벗어난 데이터를 의미(프로세스 불안정, 급격한 변동 등)
- 이상치는 분석결과를 왜곡시킬 수 있으므로 적절한 처리가 필요
- 이상치라고해서 무조건 의미 없고 잘못된 값이라는 의미는 아니므로 충분한 사전 검토가 필요
- 판단 기준 : 평균 +-3 * 표준편차, Q3/Q1 +- 1.5*IQR ( 4분위를 벗어난 경우)
크기 조정(scaler) 방법
Standard scaler (평균-표준편차 척도화)
- 평균-표준편차 척도화 (평균 = 0, 표준편차 = 1)
- 평균을 0으로 하므로, 이상치의 영향이 큼 (가정: 이상치가 없어야함)
Min-Max scaler (최대-최소 척도화)
- 최대-최소값을 이용한 변환(최소=0, 최대=1)
- 이상치의 영향이 큼
- (xi-min(x)) / (max(x) - min(x))
Robust sclaer
- 분위수를 이용한 변환 (중앙값 = 0, IQR = 1)
- 이상치의 영향을 덜 받음
- (xi - Q2(x)) / (Q3(x) - Q1(x))