4 min read
일반적으로 머신러닝 알고리즘에는 지도 학습(supervised learning)과 비지도 학습(unsupervised learning)의 두 가지 유형이 있다. 지도 학습은 둘 중에서 더 일반적으로 쓰이며, 보통 비지도 학습보다 구현이 쉽다.
지도 학습이란 무엇인가 ? 지도 학습 알고리즘은 예를 통해 학습하도록 설계된다. 인간인 관여자가 문제에 대한 답을 알고 있고, 인공지능(AI)이 그것을 알아낼 수 있도록 훈련시키고자 할 때 사용한다. 마치 교사의 도움을 받아 알고리즘을 ‘정답’으로 안내하면서 학습시키는 것과 같다. 따라서 아이가 스스로 실험하고 시행착오를 거치며 배우는 비지도 학습 알고리즘과 다르다. 지도 학습 알고리즘을 훈련하려면 입력 세트를 특정 출력과 쌍으로 구성해야 한다. 그러면 알고리즘은 입력 세트 내의 패턴을 검색하여 출력과 상관 관계를 짓는다. 이 훈련 데이터를 기반으로 지도 학습 알고리즘은 보이지 않는 입력을 가져와 지정할 레이블을 결정할 수 있다. 지도 학습 알고리즘의 목표는 새롭게 투입된 입력 데이터에 적합한 레이블을 예측하여 제대로 분류하고 이해하는 것이다. 요약하면 지도 학습은 다음과 같은 특징이 있다:
- 비지도 학습보다 더 단순하고 일반적이다
- 사람인 관여자가 답을 알고 있는 상태에서 AI를 훈련하고자 할 때 사용한다
- 사용하여 데이터를 분류하고 처리한다
- 레이블이 지정된 데이터 즉, 분류된 데이터를 사용한다
지도 학습 알고리즘의 일반 유형 지도 학습 알고리즘에는 크게 두 가지 유형이 있다.
1. 분류 기법(Classification techniques) 분류 기법은 입력 데이터를 특정 클래스 또는 그룹의 구성원으로 식별하기 위해 알고리즘에 이산 값을 예측하도록 요청한다. 패턴 인식에 매우 뛰어나 이미지 인식과 같은 용도에 이상적이다. 예를 들어, 동물 이미지 훈련 데이터 세트를 사용하여 각 사진에 개, 고양이 또는 기니피그로 미리 레이블을 지정하고, 이 동물들의 새로운 이미지를 얼마나 정확하게 구별해내는가에 따라 알고리즘을 평가한다. 분류 기법에는 다음과 같은 알고리즘 예들이 포함된다:
- 로지스틱 회귀
- 선형 판별 분석
- K-최근접 이웃(KNN, K-nearest neighbors)
- 트리(Trees)
- 신경망
- 서포트 벡터 머신(SVM, Support vector machines)
2. 선형 회귀 (Linear regression) 선형 회귀분석은 연속 데이터를 사용한다. 대수학 문제처럼 x의 값을 알고 있다면, y 변수의 값을 얼마로 예상할 것인가와 같은 문제를 푼다. 이런 문제는 아주 간단한 예라고 할 수 있고, 더 복잡한 경우는 아파트 가격을 예측하는 알고리즘과 같이 많은 변수를 수반하는 경우가 될 것이다. 위치, 평방 피트 단위의 크기, 채광, 대중교통 및 지역 시설과의 근접성, 해당 지역의 사회경제적 인구 통계, 최근에 비슷한 아파트가 얼마에 팔렸는지, 현재 시장 상황 등과 같은 많은 변수를 고려해야 한다.
지도 학습의 일반적인 적용 사례
1. 추천 엔진 추천 엔진은 전자상거래에서 점점 더 많이 사용되고 있으며, 상품 페이지나 결제 단계에서 주로 나타나는 ‘다른 사용자들이 함께 구매한 상품’ 또는 ‘이런 상품은 어떠신가요?’ 등의 형태로 추천 상품을 생성한다. 보다 다양한 형태의 추천 상품 구성도 가능하다. 커피메이커를 구매할 계획이라면 이런 필터도 필요합니다, 또는 10kg 덤벨 세트를 구매하셨네요, 더 가벼운 덤벨도 있으면 운동 효과를 더욱 높일 수 있습니다 등과 같이 추가 구매를 촉진하는 상품 추천을 구현할 수 있다. 이와 같은 추천 상품들은 일반적으로 지도 학습을 통해 구축된 AI 모델에 의해 생성된다. 알고리즘은 고객들이 많이 구매하거나 검색하는 아이템을 분석하여 사람들이 자주 구매하는 기타 상품들을 알아낼 수 있다. 이처럼 일반적인 구매 패턴을 식별하고 나면, 동일한 경로로 이동하고 있는 신규 고객들에게 해당 패턴을 추천할 수 있다. 심지어 고객의 나이, 위치, 사회경제적 지위 등과 같은 다른 요소도 고려하여 보다 개인화된 추천을 제공할 수 있다. 예를 들면, 55-65세의 여성은 같은 나이대의 남성들과는 상당히 다른 종류의 건강보조식품을 구매하는 경우가 많다.
2. 이미지 인식 지도 학습 알고리즘은 데이터에서 패턴을 찾아내는 데 능숙하기 때문에 이미지 인식 소프트웨어에 주로 탑재된다. 예를 들면, 알고리즘에 과일 바구니를 보여주고 구부러진 노란색 과일은 바나나, 둥근 모양의 오렌지색 과일은 오렌지 등으로 인식하도록 훈련하면 각 과일의 특성을 빠르게 학습하고 스스로 식별할 수 있게 된다. 이것은 훈련 데이터(이 경우 과일 바구니에 해당)를 통해 학습하고 그렇게 학습한 지식을 새로운 테스트 데이터(이 경우 추가로 보여준 새로운 과일)에 적용하는 지도 학습 알고리즘의 좋은 예이다.
3. 목적지 도착 시간 계산 지도 학습 알고리즘 덕분에 요즘의 길찾기 앱들은 특정 목적지까지 이동하는데 걸리는 시간을 상당히 정확하게 예측할 수 있다. 사용자에게 정확한 이동 시간을 알려주기 위해 알고리즘은 하루 중 해당 시간대, 주중 해당 요일, 목적지까지의 거리, 기상 조건, 교통량 등 모든 종류의 데이터를 분석한다. 여기에 덧붙여 비슷한 조건에서 비슷한 경로, 심지어 동일한 경로로 이동하는 다른 사용자의 여정 데이터까지 분석하여 특정 사용자에게 예상 도착 시간을 알려주게 된다. 그리고 이 모든 일이 단 몇 초 만에 이루어진다. 지도 학습은 일련의 활용 가능한 참조 포인트(즉, 훈련 데이터) 또는 부정할 수 없는 진실(바나나의 모양)이 있어서 알고리즘을 훈련하는 데 사용할 수 있을 때 가장 적합하다. 그런 상황에서는 매우 정확하고 신뢰할 수 있는 결과를 제공하여 실제 세상에서 광범위한 사용 사례를 만들 수 있다.
* 최근의 인공지능 (AI) 기반 광고에서는 지도 학습과 비지도 학습 알고리즘 모두 활발하게 활용되고 있습니다 . 이 알고리즘들이 보다 정교한 개인화 추천에 어떤 작용을 하는지 더 알아보고자 하시면 애피어의 관련 백서 ‘ 지도 학습에서 비지도 학습으로: AI가 재구성하는 광고 ’ 를 참고하시기 바랍니다 . 기업별 구체적인 컨설팅이 필요하시면 문의 를 남겨주세요 !