1 min read
本質上,AI 偏見指的是 AI 與 ML 基於特定訓練資料的偏見,或仰賴部分特徵而作出決策。常見的例子是臉部辨識系統,通常臉部辨識系統的訓練資料是以白人臉孔為主,因此,在面對不同文化群體時,系統便無法做出準確的判斷。
根據部分特徵做出決策的模型,無法反映整體數據;模型也可能因訓練時沒有接收過某類數據,而對該類數據表現不佳。
AI 偏見從哪來?
AI 與 ML 系統,是用從各種機制取得的數據進行訓練;這些數據包括:輸入資料或特徵來做決策、及系統理想的輸出(通常也被稱為標籤),來引導決策規則。某些訓練資料可能對特定結果產生偏見。在這種情況下,系統會對某些訓練時沒見過的數據表現較差,並產出未經優化的結果。
必須注意的是,ML 模型本身並非偏見的來源,偏見來自用來訓練模型的數據。在某些情況下,系統會對某種數據產生很好的結果,卻對其他類型的數據表現較差。
有一些案例清楚說明了 AI 模型中的偏見如何導致負面結果。在美國,使用歷史數據訓練的模型,會顯示出非裔、拉美、與其他少數民族,在犯罪統計學的人數過多;這導致使用 AI 模型於判決依據時,這些少數民族恐將面臨較嚴厲的刑責。
這是因為,當數據往某方向扭曲,模型也根據這些扭曲的數據進行決策。
並非所有偏見都是壞事
然而,對行銷人員來說,透過一些偏見數據來訓練 AI 模型是具有價值的。
偏見經常被認為是負面的,但其實人們在訓練模型時,讓模型朝特定方向演進,會比完全中立來得更好,如果所有事情處於中立的狀態,模型的訓練反而更困難。
這是因為,絕對中立的模型,需要很長的時間才能揉合正確的訓練數據集,並產出結果。如果你要為特定的客群服務,以該客戶群的數據去訓練模型將更有利;而且善用偏見能幫你的AI模型,從一開始部署時就發揮價值。
舉例來說,一家針對 18 至 25 歲年輕女性銷售時尚產品的公司,在使用 AI 驅動的推薦引擎時,能利用固有的偏見數據,針對目標客群提供購買建議;隨著客戶做出更多決策時,模型也能從客戶偏好中學習並提供更精準的推薦。
為了在模型使用初期就獲得更好的成效,有些偏見是有用的,它使模型在運作之初就將效益最大化。當使用的模型與訓練數據具有相同偏見時,這些偏見就能在模型運作之初時,發揮較好的成效。
在行銷中善用 AI 偏見
一旦模型開始運作,行銷人員可以透過模型運作過程所蒐集的數據產出更準確的決策。例如,推薦引擎一開始可能會依據模型定義的目標受眾(與你的客戶相似的對象)來進行推薦;但是隨著模型進一步了解你的顧客,它將能夠針對這些顧客推薦更符合其需求的產品。
利用這樣的數據偏見,可以降低 AI 部署的初期成本,因為蒐集無偏見數據的成本相對較高。
例如,當行銷人要推出美妝產品廣告,一開始應先採用女性和女孩的銷售數據;為了維持銷量,再進一步找出向男性顧客銷售美妝產品需掌握的特徵。
雖然人們可藉由數據偏見來訓練AI與機器學習模型,並從中獲益,我們仍要了解偏見數據可能造成的負面後果。
例如,當你先採用某年齡族群的數據,發現效果不錯;但一陣子之後,可能會發現銷量再也無法提升。如果不採取改變偏見數據的行動,隨著市場競爭加劇,你的行銷活動將愈來愈難拓展,成本也會隨之升高——因為你的模型認定:只有這個族群才有最佳表現,所以只鎖定該客群。
克服 AI 偏見
當AI與機器學習系統使用偏見數據進行訓練,但無法識別或處理該偏見數據的話,將可能產生嚴重後果。例如,你可能會錯失一部份具有價值的潛在客戶,導致市占率無法持續成長。因此,能識別偏見且採取相應的行動,非常關鍵。
一種作法是改變數據蒐集方式,觀察這項改變是否會影響模型。行銷人員可以透過A/B測試,用不同的數據集測試,看模型對哪類數據的反應比較好。這方法能確保新數據不會降低模型的效能,也能提供優化的途徑。
雖然優化數據蒐集方式非常重要,若沒有更多洞察,這個做法的花費相當高。關鍵是必須了解模型如何評估特定特徵或特徵組合;同時結合領域知識,才能進一步完善模型。
投資報酬率可以作為選擇「改善模型避免倚賴偏差的特徵」或「調整數據蒐集方式」的依據,方便權衡兩者之間的花費。一旦 ML 模型開始運作,系統將會持續蒐集數據並從中學習。
我們已經在線上廣告見證這項過程。剛開始,機器透過最初的訓練數據,決定投放廣告的管道;再透過與使用者的互動,調整未來投放廣告的位置。
Al 與 ML 演算法偏見是一項挑戰,若是行銷人員能意識到偏見所帶來的影響並善加利用,便能讓偏見協助 AI 模型在獲得更多數據、進一步學習之前,在部署初期提供合適的推薦,但若無法識別偏見並做出後續的調整,偏見也會導致不良的結果。
同時感謝未來城市 Future City@天下「用AI做精準行銷,銷售卻愈來愈差?你可能少做了這件事」以及iThome「AI偏見人人喊打?孫民:在特定行銷領域反而有其好處」的報導。