머신러닝의 개념
기계가 일일이 코드로 명시하지 않은 동작을 데이터로부터 학습하여 실행할 수 있도록 하는 알고리즘을 개발하는 연구 분야입니다. 예를 들어 금용 사기 거래를 적발하는 프로그램을 만든다고 가정해 보겠습니다. 복잡한 금융 거래에서 발생하는 수많은 변수에 대해 수십 년에 걸쳐 발생한 다양한 금융 사기 거래 조건을 감안해 수천 ~ 수만 라인의 소스 코드로 된 프로그램을 작성하더라도 사기 전문가들은 교묘하게 이 로직을 뚫어냅니다.
스팸메일을 예로 들면 특정 단어가 메일에 포함되어 있다고 해서 스팸메일로 분류할 수는 없습니다.
머신러닝은 이런 문제를 데이터를 기반으로 패턴을 인지해 해결합니다. 다양한 수학적 기법을 적용해 데이터 내의 패턴을 스스로 인지하고 예측 결과를 도출해 냅니다.
머신러닝이란 풀고자 하는 문제의 정답과 데이터를 주고 기계 학습을 시켜 정답을 맞추게 하는 것입니다.
머신러닝의 분류
지도학습
- 분류
- 회귀
- 추천 시스템
- 시각/음성 감지/인지
- 텍스트 분석/ NLP
-정답이 있는 문제를 풀 경우
비지도 학습
- 클러스터링
- 차원 축소
- 강화 학습
-정답이 없는 문제를 풀 경우
단점
머신러닝은 데이터와 알고리즘 둘 다 중요합니다. 머신러닝의 가장 큰 단점은 데이터에 매우 의존적이라는 것입니다.
가비지 인(Garbage In), 가비지 아웃(Garbage out) 즉 좋은 품질의 데이터를 갖추지 못한다면 수행 결과도 좋지 않을 것입니다. 최적의 머신러닝 알고리즘 구축도 중요하지만, 더 중요한 것은 데이터를 이해하고 효율적으로 가공, 처리 추출해 최적의 데이터를 기반으로 알고리즘을 구동할 수 있도록 준비하는 것입니다.
'머신러닝' 카테고리의 다른 글
[머신러닝] 의사결정트리(Decision Tree) 알고리즘 (2) | 2022.05.05 |
---|---|
[머신러닝] 성능 평가 지표 (0) | 2022.05.04 |
[머신러닝] Logistic Regression (0) | 2022.05.04 |
[머신러닝] 회귀(Regression) (0) | 2022.05.03 |
[머신러닝] 지도학습 (학습/테스트/검증 데이터 분리) (0) | 2022.05.03 |
댓글