자연어 처리(Natural Language Processing, NLP)는 앞으로 인공지능(AI)이 인간의 욕구와 행동을 이해하는 방식을 크게 바꿔 놓을 전망이며, 이 자연어 처리의 비약적인 발전에 딥러닝이 핵심 역할을 하게 될 것이다. 이는 비즈니스와 마케팅에 어떤 영향을 미칠 것인가? 때로 인공지능(AI)을 직접 구축해보면 인간의 사고방식이 얼마나 복잡하게 작용하는지 절실히 체감하게 된다. AI가 인간의 언어를 이해하는 방식에 있어서 그 미묘한 차이를 연구하는 기술의 한 분야인 자연어 처리도 마찬가지로 굉장히 복잡하게 작용한다. 일례로 ‘plaster’(회반죽, 벽면을 바를 때 쓰는 물질)와 ‘plasters’(일회용 반창고)의 차이점을 학습하는 단순한 작업이 AI에게는 무척 버거운 일일 수 있다. 이 차이를 구분하게 만들려면 AI에 두 가지 경우에 대해 사전에 확인된 컨텍스트를 대량으로 주입하여 AI가 충분한 경험을 바탕으로 구매자가 검색 요청에서 찾는 것이 집수리 재료인지 응급치료 용품인지 파악할 수 있도록 해야 한다. 애피어의 최고 AI 과학자인 민 선(Min Sun) 박사는 이렇게 고전적인 방식이 효과적으로 작동하려면 “사람이 각 단어의 의미와 여러 단어 사이의 관계를 명확하게 밝혀주어야 한다”고 설명한다. 즉, 예외 사항을 정의하려면 어느 정도는 인간의 개입이 필요하다는 뜻이다. 이와 같은 고전적인 방식으로도 기본적인 언어 처리가 가능한 것은 사실이지만, 이 방식은 사실상 AI가 언어와 그 의미를 기계적으로 외워서 쓰게 만드는 것과 다름없다. 미리 확인된 컨텍스트를 대량으로 취합하고 정리해야 하며 그러려면 인간의 개입도 상당한 수준으로 요구된다. 이 때문에 비즈니스 영역에서 언어 처리 기법이 널리 도입되지 못하고 있다. 인간이 소통하는 방식은 이보다 훨씬 복잡하다. 언어란 고도로 구체적이고 단어 자체의 의미 외에도 컨텍스트라는 상황 정의 안에서 작동한다. 즉, 특정 언어를 사용한 작가와 그 언어를 소비한 독자는 어휘, 단어의 선택, 구문, 철자, 및 구두법에서 서로 다른 의미로 이해하고 해석할 수 있다. 민 선 박사는 덧붙여 “언어는 시간이 지나면서 진화하고, 격식을 갖춘 문서에서 쓰는 언어와 온라인에서 사용하는 언어가 다르다. 고전적인 방식의 언어 처리 기법이 효과를 보려면 격식을 갖춘 영어, 미국식 영어, 호주식 영어 등에 대한 지식과 여기에 더해 온라인 신조어 관련 지식도 갖추어야 한다. 결국 확장성이 떨어지게 되는 것”이라고 말한다.
NLP 와 딥러닝의 관계 바로 딥러닝이 이런 문제를 해결한다. AI는 딥러닝을 통해 단어나 구문이 문단 내에서 어떻게 사용되고 있는지 직접 관찰하는 방식으로 그 의미를 학습할 수 있다. 그 결과, 미리 확인된 컨텍스트를 입력하거나 사람이 개입하여 의미를 밝히고 관계를 정의하는 대신, AI가 단어 또는 구문의 의미와 관계를 원문을 통해서 바로 학습할 수 있게 됐다. 즉, 누군가 ‘clear plaster(투명 반창고)’를 찾고 있다면, AI는 이 검색어가 의미하는 것이 응급치료 용품이지 집수리 재료가 아닐 가능성이 높다는 것을 이해할 수 있다. 이로써 NLP의 수준이 인간 학생의 수준에 좀 더 가까워진다.
그러나 딥러닝에도 대량의 텍스트, 즉 말뭉치를 입력해주어야 한다. 주로 뉴스 사이트나 위키피디아, 레딧(Reddit)과 같은 출처에서 텍스트를 가져오는데, 이것으로 컴퓨터가 “각각의 개별적인 토큰이 나타내는 벡터를 학습하는 것”이라고 민 선 박사는 설명한다. 여기서 벡터란 비슷한 단어가 서로 근접하게 매핑되는 곳으로, 근거리에 배치된 같은 컨텍스트를 가진 단어들이 의미상 같은 뜻을 공유할 가능성이 높다는 것을 나타낸다. 딥러닝과 벡터 매핑을 통해 얻을 수 있는 효과는 인간의 개입 없이도 AI가 언어 처리를 좀 더 정확하게 수행하고, 키워드 기반 마케팅이나 한층 정교한 감정 분석에도 큰 발전을 기대할 수 있게 됐다는 것이다. 우선, 키워드 기반 마케팅에 활용할 때 벡터의 중요성은 두드러진다. 마케팅을 사람이 하는 경우라면 표적으로 삼을 키워드 목록을 일일이 작성해야 하지만, 딥러닝을 사용하는 경우 AI에 ‘씨앗’을 심어주기만 하면 “그 씨앗이 벡터 공간에서 유사한 키워드를 찾을 수 있다”고 민 선 박사는 말한다. 어느 여행사에서 공략할 잠재고객 그룹을 찾아내기 위해 키워드 목록을 작성하는 상황을 가정해 보자. ‘휴가’, ‘방학’, ‘항공권’, ‘크루즈’, ‘휴양’과 같은 단어를 추가할 것이다. NLP에 통달한 AI라면 적절한 컨텍스트에서 ‘세부’나 ‘필리핀’을 검색한 사용자도 여행에 관심이 있을 가능성이 높다는 사실을 이해할 것이다. 두번째로, 딥러닝 기반의 NLP를 활용하면 정교한 정서 분석이 가능해진다. 사용자가 키워드에 긍정적인 감정을 가지고 있는지 부정적인 감정을 가지고 있는지 한층 정확하게 파악할 수 있다. 사용자가 ‘세부’와 ‘다이빙’이 아니라 ‘세부’와 ‘지진’을 함께 검색했다면 AI는 이 사용자를 여행 브랜드의 마케팅 캠페인에 적합한 대상이 아니라고 알아볼 수 있을 것이다. 민 선 박사는 “이를 통해 타겟팅 정확도가 10-20% 정도 높아지는 효과를 얻을 수 있다”고 설명한다. 딥러닝 기반 NLP는 마케팅 담당자가 사용자에 대해 상세하게 이해하여 의미 있는 인사이트 정보를 도출하는 데 핵심 역할을 한다. 이로써 공략할 집단의 범위를 확장할 수 있을 뿐만 아니라, 타겟 잠재고객들에게 보다 연관성 높은 콘텐츠로 다가갈 수 있다. 타겟 그룹을 선정하는 과정에서 키워드를 ‘여행’만 적용했다면 ‘세부’와 ‘다이빙’을 함께 검색한 사용자는 대상에 포함되지 않았을 수 있지만, 딥러닝을 통한 벡터 덕분에 이제는 공략 대상에 포함되는 것이다. 그러면 해당 목적지 관련 상품이나 할인 혜택, 더 나아가 동남아시아 지역의 다른 다이빙 명소도 추천할 수 있게 된다.
NLP 의 한계 이처럼 NLP를 통해 누릴 수 있는 이점이 많은 것은 분명하지만, 아직 보완해야 할 부분도 있다. 특히 설명 생성과 같은 기능이 미흡하다고 할 수 있다. 민 선 박사는 “생성 기능은 이해 테스트보다 불안정한 편이다. 예상치 못한 것을 생성하는 경우가 있어서 사람이 재확인해야 하는 경우가 있다”고 밝힌다. 또한, AI를 교육할 데이터 소스와 관련해서 난관이 있다. 민 선 박사는 “데이터에서 직접 학습하기 때문에 발생하는 리스크가 있다. 애초에 데이터 자체가 손상되었거나 오류가 있는 데이터라면 잘못된 결과가 나올 수밖에 없다”고 강조한다. 이는 데이터 소스를 검증하기 위해 사람의 손길이 필요하다는 뜻이다. 그럼에도 불구하고 민 선 박사는 향후 개발될 딥러닝 기반 NLP는 인간의 개입을 점점 덜 필요한 방향으로 개선될 것으로 확신하고 있다. 그는 딥러닝 기반 NLP가 이미 인력 자원의 업무 부담을 상당 부분 줄이고 마케팅 규모를 손쉽게 확장할 수 있도록 지원하고 있기 때문에, 멀지 않은 미래에 챗봇이 복잡한 고객 문의를 처리하고 마케팅 활동이 한층 더 자동화될 것으로 기대해도 좋다고 말한다. 현재 시점에서도 딥러닝 기반 NLP를 통해 타겟 잠재고객 그룹을 한층 광범위하고 정확하게 파악하여 이들과 연관성 높은 콘텐츠로 대응할 수 있다는 면에서 비즈니스와 마케팅에 제공하는 혜택이 분명하기 때문에 충분히 투자할 가치가 있는 분야라고 할 수 있다. AI가 다음으로 이루어 낼 성과가 무엇일지 기대가 된다.
* 딥러닝을 통해 고객 확보 및 참여를 향상시킬 수 있는 방법을 알아보고 싶다면 , 애피어의 최신 백서 '수익 가치 높은 앱 사용자 확보하기: 딥러닝을 통한 신규 사용자 유치 캠페인 효율 향상’ 를 확인해보세요 !