[민선 칼럼] "AI 편향성 이해하면 마케팅에 활용할 수 있어” 최근 몇 년 사이 인공지능(AI) 및 머신러닝(ML) 시스템의 알고리즘이 가질 법한 편향성에 대해 심도 있는 논의와 면밀한 조사가 이뤄졌다. 대부분은 편향성으로 인한 부정적인 결과에 초점이 맞춰져 있지만, 마케터는 편향성을 오히려 긍정적인 방향으로 활용할 수 있다. 그러려면 편향성에 대한 인식과 이해가 우선돼야 한다. 편향성이 어디서 오는지, 그 근원을 이해하는 데서 시작할 수 있다. AI 편향성이란 기본적으로 인공지능이나 머신러닝이 특정 결과에 대해 어느 정도의 편향성을 갖고 판단을 내리거나 어떤 특징들의 부분집합에 의존하고 있다는 의미다. 가장 흔한 예로 주로 백인을 대상으로 훈련된 안면인식 시스템을 들 수 있는데, 그 결과 이 시스템의 경우 다른 문화 집단에 속한 사람에 대해서는 정확한 판단을 내리지 못한다. 판단의 대상이 되는 데이터를 충분히 대표하지 않는 특징을 토대로 판단하고, 따라서 훈련 도중 투입한 적 없는 일부 유형의 데이터에 대해서는 좋지 않은 성능을 보이는 것이다.
AI 편향성은 어디에서 오는가?
AI 및 ML 시스템의 경우 다양한 구조를 통해 수집된 데이터 집합을 활용해 훈련된다. 시스템을 훈련하는 데 사용된 특징 또는 입력(Input), 즉 데이터가 판단을 내리는 데 사용된다. 출력물(Output)은 보통 레이블(Label)이라고 한다. 일부 특징 집합의 경우 특정 결과로 편향될 수 있고, 그와 같은 편향된 특징 집합을 토대로 구축한 시스템은 훈련 중에 노출되지 않은 일부 유형의 데이터에 대해서는 성능이 저하되고 최적화되지 않은 결과를 제공한다. 여기서 주목할 사항은 ML 모델 자체가 편향성의 근원이 아니라는 점이다. 편향성의 근원은 모델을 훈련하는 데 활용한 데이터다. 그 데이터를 토대로 시스템은 특정 유형의 데이터에서는 매우 좋은 성능을 보이지만 또 다른 유형에서는 그렇지 못한 결과를 내는 것이다. AI 모델의 편향성으로 인해 초래되는 부정적인 결과를 잘 보여주는 사례는 많다. 그중 하나가 미국에서 범죄통계를 낼 때 흑인, 히스패닉 및 기타 소수인종에 과대 대표성을 부여한 과거 데이터로 훈련한 모델을 사용한 경우다. 이로 인해 소수인종 구성원에게 더 가혹한 처벌을 내리는 선고에 AI 모델이 이용되는 결과를 초래했다. 데이터가 특정 방향으로 치우친 경우 모델은 이와 같이 편향된 데이터를 기반으로 판단을 내리게 된다.
모든 편향성이 나쁜 것은 아니다
그러나 마케팅에서는 AI 모델 훈련에 사용된 데이터의 편향성이 오히려 더 좋은 결과를 가져올 때가 있다. 대체로 편향성은 부정적인 맥락에서 언급되지만, 실제로는 완전히 중립적인 모델보다 특정 방향으로 기울어진 모델이 더 도움될 수 있다. 절대적으로 중립적인 모델의 경우 목표로 하는 성과를 도출하기에 적합할 뿐 아니라, 충분한 양의 훈련 데이터를 선별하는 데 매우 오랜 시간이 걸리고 훨씬 더 심도 있는 학습이 필요하기 때문이다. 즉, 더 많은 비용과 시간을 요한다. 마케팅에서도 특정 고객 그룹을 대상으로 서비스를 제공하려 한다면 해당 고객 그룹 관련 데이터로만 AI 모델을 훈련하는 것이 매우 유용할 수 있다. 편향성을 통해 AI 모델을 적용하자 마자 의미 있는 결과를 도출할 수 있도록 설계하는 것이다. 예를 들어, 18세에서 25세 사이의 젊은 여성을 대상으로 패션 제품을 판매하는 기업의 경우, AI 구동 추천 엔진을 통해 해당 나이대 여성들이 갖는 고유의 편향성을 토대로 또래 집단이 선호하는 제품들을 추천함으로써 추가 구매를 유도할 수 있다. 고객이 구매 관련 결정을 많이 하면 할수록 AI 모델은 해당 고객의 선호도를 학습해 더욱더 개별 고객에게 맞는 제안을 할 수 있다. 이처럼 모델 적용 초기부터 더 강력한 성능을 원한다면 약간의 편향성이 도움이 된다. 적용한 AI 모델이 훈련받은 데이터와 동일한 편향성을 갖는 데이터를 대상으로 구동될 경우, 그 편향성을 활용해 모델을 적용했을 때 바로 좋은 성능을 얻을 수 있기 때문이다. 그러면 해당 모델로부터의 수익을 처음부터 극대화할 수 있다.
AI의 편향성을 활용하는 마케팅
AI 모델이 작동하기 시작하면, 그 과정에서 수집되는 데이터를 추가로 활용해 더 정확한 판단을 내릴 수 있다. 가령 추천 엔진은 AI 모델이 기존 고객과 유사하다고 판단하는 사람들을 대상으로 우선 제안을 시작한다. 그리고는 모델이 고객에 대해 더 많이 알아가면서 점점 더 해당 고객과 관련성 높은 상품이나 서비스를 추천할 수 있다. 또 편향성 없는 데이터를 수집하는 데는 더 많은 비용이 들기 때문에, 데이터의 편향성을 역으로 활용함으로써 AI 적용에 따르는 초기 비용을 줄일 수도 있다. 예를 들어 화장품 광고를 진행한다면, 처음에는 성인여성과 여성청소년을 대상으로 하는 캠페인에 집중할 것이다. 시간이 지나면서 볼륨을 확대해야 할 경우, 남성에게도 화장품을 추천하기 위해 AI 모델에 어떤 특징을 추가하는 것이 좋을지 고민함으로써 성과를 단계적으로 최적화해 나갈 수 있다. AI 및 ML 모델 훈련에 사용되는 데이터의 편향성을 활용해 좋은 결과를 낼 수 있다는 사실을 인지하는 것도 중요하지만, 데이터 편향성으로 부정적인 결과가 초래될 수 있다는 것도 잊지 말아야 한다. AI 모델 적용 초기에 편향성을 활용하고 그 후에도 지속적으로 그 편향성을 고수한다면 발전이 제한적일 수 있다. 예를 들어, 특정 연령대를 대상으로 성과가 좋았지만, 얼마 후 볼륨을 더 이상 늘릴 수 없다는 것을 알게 됐을 때 그 편향성을 극복하기 위한 어떠한 조치도 취하지 않으면, 캠페인을 확장하기가 점점 더 어려워지고 경쟁으로 인해 비용도 점점 더 많이 들게 된다. 그 특정 그룹만이 최고의 성과를 낸다고 생각해서 그 그룹에 대해서만 타깃팅을 하기 때문이다.
AI 편향성 극복
편향성 데이터를 활용해 AI 및 ML 시스템을 훈련하는 경우 해당 편향성에 대한 인식 및 처리가 이뤄지지 않는다면 심각한 결과를 초래할 수 있다. 잠재적 가치가 높은 틈새 고객을 놓치고 시장 점유율의 지속적 확대가 힘들 수 있다. 편향성의 존재 여부, 정도 등에 대한 평가 및 조치를 적절한 때에 취할 수 있어야 한다. 이것을 손쉽게 구현할 수 있는 한 가지 방법은 데이터 수집 방식을 변경하고, 그 변경으로 인해 모델 성능에 발생하는 영향을 확인하는 것이다. 그리고 서로 다른 데이터 집합을 활용해 A/B 테스트를 진행해보면 어떤 것이 더 나은 결과를 제공하는지 확인할 수 있다. 이를 통해 모델 성능을 최적화할 수 있을 뿐 아니라 새로 추가하는 데이터가 모델의 효율성을 저하시키는 일이 없도록 할 수 있다. 수집하는 데이터를 정제하는 일은 중요하지만, 충분한 인사이트가 없다면 매우 큰 비용이 들 수 있다. 따라서 모델이 특정 특징과 특징의 조합들에 얼마나 많은 가치를 두는지 평가하는 것이 중요하다. 특정 분야의 지식을 뜻하는 도메인 지식을 활용해 모델을 더욱 정제할 수 있다. 모델을 정제하는 것이 나을지, 또는 데이터 수집을 정제하는 것이 나을지에 대한 판단은 데이터 수집 방법론을 변경하는 데 드는 비용 또는 모델에서 해당 특징이 갖는 중요성을 재평가하는 데 소요되는 비용을 비교해 각각의 투자자본수익률(ROI)을 토대로 결정한다. 머신러닝 모델이 작동을 시작하면 초기 결과는 훈련에 사용된 데이터에 따라 결정되지만, 모델이 계속 작동하다 보면 시스템 자체가 데이터를 수집하고 학습하면서 결과가 변하게 된다. 이를 온라인 광고에서도 볼 수 있다. 머신은 훈련에 사용된 데이터를 기반으로 특정 광고를 게재할 위치를 결정한다. 그리고는 사용자들이 해당 광고에 반응하는 방식을 분석함으로써 모델은 향후 광고를 게재할 위치를 학습하고 조정한다. AI 및 ML 알고리즘의 편향성은 우리가 해결해야할 도전과제가 맞지만, 편향성이 갖는 의미를 인지한다면 오히려 편향성을 이로운 방향으로 활용할 수 있다. 그러나 편향성에 대한 이해가 이뤄지지 않는다면, 원치 않는 결과가 초래될 수 있다는 점도 주지해야 한다.
* 이 글은 지디넷코리아에 게재된 애피어 최고 AI 과학자 민선 박사의 기고입니다. 원 기고는 여기서 확인할 수 있습니다.