Appier首席機器學習科學家 林守德博士
如今,企業每天都要處理大量的數據,數據增長的速度比以往任何時候都要快。同時,由於產業競爭的迅速變化,能否快速進行決策對於商業組織來說至關重要,因為業務的成功取決於能否善用現有的資訊做出快速、準確的決策。
機器學習(ML)對於尋求競爭優勢的企業來說是一項不可或缺的技術,因為它可以快速處理大量數據,幫助企業更有效地向顧客提出建議,優化製造流程或是預測市場變化。
機器學習即服務(MLaaS)在商業情境中被定義為──設計和導入機器學習模型的公司,借助機器學習技術為客戶提供持續一貫的服務。這對於顧客需求與行為快速變化的產業格外重要,特別是2020年以來COVID-19大流行,人們的購物習慣、工作行為和社交方式都發生急遽的變化,也迫使企業也不得不改變服務客戶的方式以滿足新的需求。
這意味著企業蒐集和處理數據所採用的技術必須更加彈性,才能更快地導入新數據,並且靈活地在商業決策上應用,賦予企業快速採取行動的競爭力。
將機器學習模型延伸為機器學習即服務的當前挑戰在於──如何建構模型?以及如何教會未來的機器學習人才落實這項工作?目前機器學習模型的研發工作多半集中在單一模型的建構上,通常人們採用一組數據用於模型的訓練上(預先設定好系統該具備哪些功能與標籤)以針對另一組數據的標籤(通常稱為測試數據)產出精準的預測。但是,如果我們希望滿足的是現實世界中顧客不斷變化的需求,企業用以訓練和測試模型的數據就不能那麼清楚地一分為二,因為,今天用於測試或預測的數據可能立刻就要作為明天用於訓練模型的數據,才能讓模型不斷優化,擁有更佳的表現。
由此可知,用於訓練模型的數據不可能是完美的,原因除了現實世界中的數據來源不完整、數據並非結構化數據(例如客戶的開放式問卷),數據在蒐集過程中也有可能存在偏見(例如,用以訓練推薦模型的數據通常是來自另一個線上推薦系統蒐集到的反饋,正因為訓練模型的數據存有另一個模型的影子,偏見不可能消失)。
此外,我們最在意的結果通常是最難被預測和推論的,以電商品牌的數位行銷過程為例,常見的用戶旅程是消費者「點擊商品」、「查看商品」、「將商品加入購物車」、最後才「購買商品」;但往往系統所記錄的用戶軌跡很少這麼單純,人們可能會在不同設備上多次查看某件商品,可能會將商品從購物車移除後再重新加入,可能在猶豫了好一陣子後還是放棄購買,這些複雜的動機與行動都是單一機制難以去預測和推論的。而且,要得知用戶到底有沒有購買會比取得其點擊或瀏覽的數據更加困難(如果消費者不是在你的平台完成結帳,你根本無從得知他是否還想要收到這件商品的廣告)。假如MLaaS只仰賴最簡單點擊和瀏覽指標,模型的建議很有可能無法滿足最終的業務目標,因為模型有可能在錯的時機發送推播訊息。
對於一家提供機器學習服務的B2BAI公司而言,他們通常要為成千上萬個來自不同領域的客戶提供服務,這意味著至少有數千個模型持續在線上提供服務,為了使這些模型能夠始終如一地運行,並且滿足客戶不斷變化的業務目標,便需要每天不斷對模型進行訓練或更新數據,好讓模型因應現實世界中客戶不斷變化的任務需求做出調整;因此,模型創建者不僅要完善模型自動訓練的流程,還需要確保模型發生局部誤差的概率趨近於零,才能持續滿足客戶提出的業務目標。
維持MLaaS模型整體的穩定性和機動性非常重要,這絕對是一件非常具有挑戰性的任務,需要仰賴持續不斷的投資、研究和實驗才能辦到,但是能做到這一點的公司也將享有MLaaS帶來的巨大回報,因為隨著時間持續迭代的模型能幫助他們適應不斷變化的商業環境,在業界保持領先地位。
感謝 電子時報的報導「 機器學習即服務的挑戰與機會」