데이터 불균형1 [머신러닝] 이상 탐지(Anomaly Detection) from sklearn.tree import DecisionTreeClassifier 이상 탐지(Anomaly Detection)의 정의 주어진 데이터의 정상 여부를 판별하는 문제 신용 카드 사기, 대출 사기 탐지 등이 대표적인 예시 이상 탐지 문제의 가장 큰 특징은 정상 데이터와 이상 데이터의 비율의 불균형입니다. 암 진단으로 예시를 들었을 때, 암이 아닌 환자가 99명이고 암인 환자가 1명이면 모든 데이터를 암이 아닌 환자라고 예측하면 정확도가 99프로로 엄청 높게 나옵니다. 데이터 불균형(Class Imbalance)의 해결 방법(샘플링) Under Sampling 큰 그룹의 데이터를 덜 뽑아서 데이터의 비율을 맞추는 방법입니다. Over Sampling 작은 그룹의 데이터를 더 뽑아서 데이터의 비.. 2022. 5. 11. 이전 1 다음