部落格|Appier

行銷人入門必備:深入淺出「深度強化學習」

作者:Admin | Jun 24, 2019 4:00:00 PM

圍棋的遊戲規則雖然簡單,但其對弈過程卻十分複雜,棋手所做的每一個決策背後皆隱含著「2 x 10170」的可能性。經驗豐富的棋手在經年累月的嘗試和錯誤中學習,而這種決策機制就是所謂的強化學習

若在人工智慧中輸入上千萬場專業棋手間的對決數據,其最終會產出何種學習結果?答案就是擊敗頂尖人類棋手的知名人工智慧圍棋軟體AlphaGo,其運作原理便是基於深度學習。

但若是換個方式,先讓人工智慧弄懂圍棋規則,然後再任其「自行」模擬數百萬場棋局,以藉此從中學習如何對弈呢?「深度強化學習」除了讓人工智慧能夠自行建立自身數據(數百萬場棋局)外,還可幫助其透過分析不同落點來找出最佳走法。正如人類的學習模式一樣,人工智慧會根據其成功或失敗的經驗來調整後續行動,以求改善最終的結果,只不過其在做決策時所能涵蓋的範圍與思考速度,遠超出人類能力所及的境界。

「深度強化學習」需在具結構性的環境中運作,這意味著使用者在設定目標前,須將周遭的情境納入考量(例如學習圍棋規則或是研究行銷市場)。基於「深度強化學習」的人工智慧不但能從過去的行銷活動中汲取經驗,協助企業擬定合宜的策略及行動,還能透過內部演算法模擬可能發生的情況,以提供給行銷人參考。

此外,人工智慧具備持續學習的能力,除了能在企業推展行銷活動的過程中,確認哪些是有效的、哪些是無效的方案外,還可針對盈利能力等因素進行分析,讓企業得以透過降低獲取每筆名單成本或主攻高消費力族群,來優化日後的行銷活動。

假設有一家公司想要大幅提升其應用程式的安裝數量,在此前提下,該公司會希望運用其有限的預算,以盡可能地獲取最高限度的安裝數量(目標)。換言之,其必須擬定合宜的預算配置方式,以及為廣告版位設定合理的出價金額(作法)。而應用「深度強化學習」技術的人工智慧工具,便能根據該公司的預算和出價,推薦最符合其需求的平台和廣告投放時間點。於是,在人工智慧的建議下,該公司便能有效把握住最佳的廣告曝光機會。若周遭環境條件發生變化,基於「深度強化學習」的人工智慧也有能力即時做出反應,比行銷人更迅速地分析出哪些方案可行、哪些不可行。

「深度強化學習」技術適用於具備多樣化選擇的複雜情境,例如像行銷活動這類需隨著消費者行為做調整的環境。這種技術的優勢在於其能夠從錯誤中汲取教訓,並能藉此縮短優化決策所需的時間。