본문 바로가기

머신러닝14

[머신러닝] 추천 시스템 추천 시스템이란? 특정 사용자가 관심 가질만한 정보를 추천하는 시스템으로, 사용자의 취향을 알아내 새로운 아이템을 추천하는 것입니다. ex) 영화, 음악, 책, 뉴스... 사례) 넷플릭스 : 고객의 영화 평가를 바탕으로 특정 고객에게 영화를 추천하는 서비스 아마존 : 협업 필터링 알고리즘 기반 추천 시스템 적용 정보 필터링 방법과 연관성 분석 등 다양한 추천 기법이 연구되고 있습니다. 유사도 정의 비슷한 정도를 나타내는 지표 종류 유클리디안 유사도 코사인 유사도 피어슨 유사도 자카드 유사도 유클리디안 유사도 유클리디안 거리의 역수로 정의 EUCLIDEAN DISTANCE OF USER A AND USER B 유사한 유저: 유저 A & 유저 C 코사인 유사도 두 벡터 간의 코사인 각도를 이용해 계산 Cos.. 2022. 5. 12.
[머신러닝] 이상 탐지(Anomaly Detection) from sklearn.tree import DecisionTreeClassifier 이상 탐지(Anomaly Detection)의 정의 주어진 데이터의 정상 여부를 판별하는 문제 신용 카드 사기, 대출 사기 탐지 등이 대표적인 예시 이상 탐지 문제의 가장 큰 특징은 정상 데이터와 이상 데이터의 비율의 불균형입니다. 암 진단으로 예시를 들었을 때, 암이 아닌 환자가 99명이고 암인 환자가 1명이면 모든 데이터를 암이 아닌 환자라고 예측하면 정확도가 99프로로 엄청 높게 나옵니다. 데이터 불균형(Class Imbalance)의 해결 방법(샘플링) Under Sampling 큰 그룹의 데이터를 덜 뽑아서 데이터의 비율을 맞추는 방법입니다. Over Sampling 작은 그룹의 데이터를 더 뽑아서 데이터의 비.. 2022. 5. 11.
[머신러닝] 차원축소 차원(Dimension) 공간 내 데이터의 위치를 나타내기 위해 필요한 축의 개수 좌표상 표현할 수 있는 표현은 3차원까지입니다. 그 이상 넘어가면 변수가 늘어나면서 차원이 커짐에 따라 공간을 설명하기 위한 데이터 부족 과적합 & 성능 감소 & 정보의 밀도 감소 차원 축소(Dimensionality Reduction) 데이터를 잘 설명할 수 있는 변수의 개수는 현재 변수의 개수보다 작을 수 있습니다. 데이터를 기반으로 잠재 공간을 파악하는 것이고 이로 인해 차원의 저주 해결, 연산량 감소, 시각화 용이 등의 이점이 있습니다. 변수 선택(Feature Selection) 원본 데이터의 변수 중 불필요한 변수를 제거하는 방법입니다. ex) 몸무게, 키, 머리 길이 -> 몸무게, 키 변수 추출(Feature .. 2022. 5. 10.
[머신러닝] 군집화 군집화(Clustering)의 정의 유사한 속성을 갖는 데이터들을 묶어 전체 데이터들 몇 개의 군집으로 나누는 것입니다. Classification Supervised Learning 소속 집단의 정보를 알고 있는 상태 Label이 있는 데이터를 나누는 방법 Clustering Unsupervised Learning 소속 집단의 정보를 모르고 있는 상태 Label이 없는 데이터를 나누는 방법 계층적 군집화 개체들을 가까운 집단부터 묶어 나가는 방식 유사한 개체들이 결합되는 dendrogram 생성 Cluster들은 sub-cluster를 갖고 있다. 개체들을 가까운 집단부터 묶어 나가는 방식입니다. 거리의 종류 유클리드 거리 맨해튼 거리 표준화 거리 민콥 스키 거리 최단 연결법 최장 연결법 평균 연결법 .. 2022. 5. 6.