2 min read
오늘날의 기업들은 막대한 양의 데이터를 다루며 그 규모 또한 그 어느 때보다 빠르게 성장하고 있다. 그와 동시에 시장경쟁 지형이 급격히 바뀜에 따라 신속하게 의사결정을 내리는 것이 이윤 추구를 목적으로 하는 조직들에게는 더욱 중요해졌다. 사업의 성공 여부가 활용 가능한 정보를 바탕으로 얼마나 신속하고 정확하게 의사결정을 내리느냐에 좌우된다. 머신러닝(ML)은 경쟁우위를 확보하려는 기업들에게는 반드시 필요한 기술이다. 막대한 양의 데이터를 빠른 속도로 처리할 수 있기 때문에, 브랜드가 소비자들에게 더 적합한 상품을 추천하거나, 제조 기업이 공정 과정을 개선하거나 혹은 시장 변화를 미리 예측하여 선제적으로 대응할 수 있도록 지원한다.
서비스형 머신러닝(Machine Learning as a Service, MLaaS)은 사업적인 맥락에서 고객에게 일관된 서비스를 지속적으로 제공할 ML 모델을 설계하고 구현하는 기업들로 정의될 수 있다. 특히, 고객의 수요와 행동이 빠르게 변하는 영역에서 큰 역할을 수행할 수 있는데, 2020년부터 이어지고 있는 코로나19 상황이 대표적인 예가 될 수 있다. 팬데믹의 영향으로 사람들이 쇼핑, 업무, 사회 활동을 하는 방식이 크게 바뀌었으며, 그 변화된 소비자들의 수요에 부응하기 위해 기업들은 빠르게 서비스 방식을 바꿔야 했다. 이는 기업들이 데이터를 수집하고 처리하는 데 사용하는 기술 또한 새로운 데이터 입력에 맞춰 유연하게 조정할 수 있어야 한다는 의미이다. 그래야만 기업이 최선의 의사결정을 민첩하게 내릴 수 있다.
ML 모델을 MLaaS로 전환하는 데는 해결해야 할 어려움이 하나 있다. 우리가 현재 ML 모델을 구축하고, 미래의 ML 인재들에게 이를 가르치는 방식과 관련된 문제이다. 현재 대다수의 ML 모델 연구 및 개발은 사전에 특징과 레이블이 부여된 일련의 훈련 데이터를 활용하는 개별 모델을 구축하여, 보통 테스트 데이터라고 부르는 다른 데이터 세트의 레이블을 가장 잘 예측하는 데 초점을 맞춘다. 그러나 계속해서 진화하는 실제 소비자의 수요에 부응하고자 하는 실제 기업들의 사례를 보면 훈련 데이터와 테스트 데이터의 경계가 점점 흐려지고 있다. 오늘 테스트 또는 예측을 위해 사용하는 데이터를 훈련 데이터로 활용하여 향후 더 나은 모델을 만들 수 있게 되는 것이다.
결과적으로, 모델 훈련에 사용되는 데이터는 몇 가지 이유로 불완전할 수밖에 없다. 현실의 데이터 소스가 불완전하거나 개방형 고객 설문조사처럼 비구조화될 수 있음은 물론이고 편향된 수집 절차에서 발생했을 수도 있다. 예를 들어 추천 모델 훈련에 사용될 데이터는 보통 현재 구동되고 있는 다른 온라인 추천 시스템의 피드백으로부터 수집한 결과에 토대를 두고 있어, 이 데이터는 해당 추천 서비스 모델에 의해 편향될 수 있다. 또한, 보통 가장 중요시하는 결과가 가장 평가하기 어렵다. 전자상거래 디지털 마케팅 분야를 예로 들어 생각해볼 수 있다. 가장 일반적인 소비자 여정은 '품목을 클릭하고, 열람하고, 장바구니에 담고, 구매하는 것'이다. 그러나 실제에서는 이 절차가 이렇게 단순한 경우는 거의 없다. 사람들은 같은 품목을 다양한 기기에서 여러 번 열람하거나, 장바구니에서 품목을 뺐다가 다시 넣기도 하고, 구매 자체를 갑자기 중단하기도 한다. 일반적으로 구매와 같이 퍼널(funnel), 즉 깔때기의 아랫단에서 일어나는 활동은 퍼널 상위 단계의 활동보다 유도하기가 훨씬 어렵다.
만약 MLaaS 모델이 클릭과 열람 수 등 단순한 지표에만 의존한다면 언제 마케팅 메시지를 보낼지 등의 추천 또한 최종 비즈니스 목적과 일치하지 않을 것이다. 마지막으로, 머신러닝 서비스를 제공하는 B2B AI 기업은 보통 수천 명, 또는 그 이상의 고객에게 여러 도메인에서 서비스를 제공해야 한다. 이는 최소한 수천 개의 모델이 온라인에서 지속적으로 구동되고 있음을 뜻한다. 게다가 이런 모델이 끊임없이 변화하는 사업 목적에 지속적으로 부응하기 위해서는 매일 다시 훈련되거나 업데이트되어서 진화하는 현실의 시나리오를 따라잡을 수 있어야 한다. 이 목표를 달성하려면 자동 훈련 파이프라인을 설계해야 하는 것은 물론이고 모델이 잘못된 로컬 최적 지점으로 수렴할 가능성을 0에 가깝게 만들어야 한다. MLaaS 모델의 전반적인 안정성과 일관성을 보장하는 것이 중요하다. 분명 어려운 일이고 상당한 비용의 지속적 투자, 연구와 실험을 요하지만 그로써 기업이 얻는 보상은 막대하다. 변화하는 비즈니스 환경에 맞춰 선제적으로 대응하여 경쟁에서 앞서나갈 힘을 얻게 되기 때문이다. MLaaS 모델의 작동 원리, 효과, 도입의 어려운 점 등 관련 제반 여건을 현실적으로 따져보고 우리 기업에 적합한 형태로 활용할 수 있다면 급변하는 세계 시장에서 강력한 경쟁우위를 확보할 수 있을 것이다.
* 이 글은 동아닷컴에 게재된 애피어 최고 ML 과학자 슈드 린(Shou-de Lin) 박사의 기고입니다. 원 기사는 여기서 확인할 수 있습니다.