1 min read
바둑의 규칙은 단순한 편이지만 실제 플레이는 복잡하다. 각 플레이어가 바둑판에 한 수를 둘 때마다 대략 2 x 10 170 가지의 위치를 고려할 수 있다. 경험이 많은 선수는 수년간의 게임을 통해 시행착오를 거쳐 어떤 수가 더 상대방을 제압할 가능성이 높은지를 학습하며, 이와 같은 학습 과정을 강화학습이라고 부른다. 그러면 전문 바둑 선수들 간에 있었던 수천 번에 달하는 게임 데이터를 인공지능(AI)에 입력하면 어떤 일이 생길까?
최고 수준의 바둑 선수들을 능가하는 AI, 즉 알파고(AlphaGo)가 나온다. 이것이 바로 딥러닝 작동의 결과이다. 그러나 만약 프로 선수들 간의 게임 결과 데이터를 입력하는 대신 AI에게 바둑의 규칙을 가르치고 AI 사이에서 수백 만 번의 게임을 플레이하게 한다면 어떻게 될까? AI는 심층 강화학습을 통해 수백 만 게임에 대한 자체 데이터를 생성하고 최상의 결과에 도달하도록 만든 주요 움직임을 분석함으로써 스스로 학습한다. 인간이 학습을 하는 과정과 마찬가지로 AI 또한 실패나 성공에 따라 대응 방식을 조정함으로써 결과치를 향상시킨다. 차이가 있다면 AI가 처리할 수 있는 학습의 규모와 속도가 우리 사람의 능력을 훨씬 초월한 수준이라는 점이다. 심층 강화학습은 하나의 구조 내부에서 작동할 수 있다. 이것은 목표를 설정하기 전에 바둑이라면 게임의 규칙, 그리고 만약 마케팅 캠페인이라면 시장 상황과 같은 해당 환경의 컨텍스트, 즉 맥락을 고려해야 한다는 뜻이다. 그러면 심층 강화학습 기능을 수행하는 AI는 이전 캠페인으로부터 얻은 지식 뿐만 아니라 자체 반복 학습 과정에서 수없이 시도해 본 시나리오에서 얻은 교훈까지 포함한 전체 정보를 토대로 승리 전략이나 묘수에 대한 인사이트를 도출하여 게임이나 마케팅 캠페인이 어떻게 전개될지 보다 정확하게 예측할 수 있도록 한다. 또한, 캠페인을 실제로 운영하면서 효과가 있는 것과 없는 것을 판단하는 것 뿐 아니라 수익성과 같은 중요한 요소들을 분석하는 등, 스스로 학습을 지속한다. 따라서, 리드(lead)당 비용을 낮추거나 더 많은 구매를 할 것으로 예상되는 사용자를 타겟팅함으로써 향후 캠페인을 최적화할 수 있다. 앱 설치 수를 극대화하는 캠페인을 진행해야 하는 상황을 가정해보자. 캠페인 목표는 한정된 예산으로 확보할 수 있는 최대치의 설치 수를 얻는 것이다.
예산을 어디에 할당할지, 입찰 가격을 얼마로 할지 결정해야 한다. 이 경우 AI는 심층 강화학습을 사용하여 주어진 예산 및 가격에 대한 이해를 기반으로 최상의 플랫폼과 타이밍을 찾을 수 있는 전략을 제안하고, 마케터에게 가장 유리한 기회를 찾는 데 도움되는 액션이 무엇인지 제시한다. 그리고 환경이 바뀌어도, 무엇이 효과가 있는지 또는 없는지를 사람보다 훨씬 빨리 배우고 판단할 수 있다. 심층 강화학습은 인간 행동을 다루는 마케팅처럼 여러 다양한 대체 경로가 있을 수 있는 복잡한 환경에서 가장 큰 효과를 발휘한다. 또 하나의 큰 장점은 실수를 통해 학습하고 빠른 속도로 다시 최적화한다는 점이다.