Gate 广場「創作者認證激勵計畫」優質創作者持續招募中!
立即加入,發布優質內容,參與活動即可瓜分月度 $10,000+ 創作獎勵!
認證申請步驟:
1️⃣ 打開 App 首頁底部【廣場】 → 點擊右上角頭像進入個人首頁
2️⃣ 點擊頭像右下角【申請認證】,提交申請等待審核
立即報名:https://www.gate.com/questionnaire/7159
豪華代幣獎池、Gate 精美周邊、流量曝光等超過 $10,000 的豐厚獎勵等你拿!
活動詳情:https://www.gate.com/announcements/article/47889
大規模電子商務:AI 如何在數百萬個SKU中實現一致的產品屬性
擴展電子商務平台規模需要解決已知問題,如分散式搜尋、即時庫存管理和推薦引擎。然而,在表面之下潛藏著一個頑固且常被低估的問題,幾乎困擾每個線上商家:屬性值的管理與正規化。儘管這個挑戰乍看之下似乎微不足道,但在應用於數百萬商品時,卻會暴露出重大複雜性。
產品數據品質中的隱藏問題
產品屬性是產品發現的基礎。它們控制篩選功能、比較功能、搜尋相關性和個人化推薦。然而,在實際目錄中,屬性值很少以最佳形式呈現:存在不一致、重複、格式錯誤或語義模糊的情況。
讓我們看一些具體範例:
在尺寸方面,值可能混亂地出現:‘XL’、‘Small’、‘12cm’、‘Large’、‘M’、‘S’。顏色也同樣混亂:‘RAL 3020’、‘Crimson’、‘Red’、‘Dark Red’。單獨來看,這些偏差似乎無害,但若在超過300萬個SKU中,且每個SKU都包含數十個屬性,問題就變得結構性地嚴重。
其後果立即可感:篩選器運作不穩定、搜尋引擎精確度下降、手動清理耗費巨大資源,產品發現變得較慢且令人沮喪。
架構性方法:具有嚴格控制的混合AI
解決方案不是引入一個不透明的黑箱式AI,因為這類系統難以追蹤、除錯繁瑣且易於錯誤擴散。相反,設計了一個混合流程,該流程:
最終形成一個混合架構,將大型語言模型的情境推理與確定性規則和商家控制器結合起來。這是有導引的AI,而非無控制的AI。
為何離線處理是正確選擇
所有屬性正規化都不是即時完成,而是在異步背景作業中進行。這不是妥協,而是經過深思熟慮的架構決策,具有顯著優勢:
批次處理的優點:
相較之下,即時處理會導致不可預測的延遲、脆弱的依賴、昂貴的計算成本和操作不穩定。在大規模環境中,將用戶系統與資料管道隔離是關鍵。
資料持久化作為穩定性保障
架構中的一個關鍵點是深思熟慮的資料持久化。所有正規化結果都直接存入集中式的Product MongoDB。這個持久化策略具有多重功能:
MongoDB成為排序屬性值、細化屬性名稱、分類專用排序標籤和產品相關的sortOrder欄位的中心存儲。這種持久化策略確保整個生態系統中的一致性與穩定性。
技術處理流程
在AI應用之前,進行嚴格的預處理以降低雜訊:
這個看似簡單的步驟大幅提升LLM的準確性。垃圾輸入,垃圾輸出——在這個數據量下,即使微小的錯誤也可能演變成更大問題。
接著,LLM服務會接收經過清理並帶有上下文的輸入:
模型根據這些資訊識別:
模型會返回:排序後的值、細化的屬性名稱和一個(確定性與語境性)的分類。
確定性備援以提升效率
並非所有屬性都需要AI推理。數值範圍、單位值和簡單集合可由以下方式處理:
流程會自動識別這些情況,並採用確定性邏輯——高效利用資源,避免不必要的LLM調用。
人工控制:標記系統
商家需要對關鍵屬性進行干預,因此每個分類都可以標記為:
這個雙重標記系統建立信任:人類保持最終控制權,AI則負責大量工作。
搜尋整合作為驗證點
正規化後,排序值會傳入專用搜尋系統:
確保:
搜尋整合是屬性一致性最直觀且關鍵的展現點。
系統架構總覽
整個系統流程如下:
這個持久化策略確保每個屬性值——無論由AI排序或人工定義——都能在搜尋、商品展示與客戶互動中反映。
實務轉換成果
流程將混亂的原始值轉換為一致的輸出:
這些範例展現了如何將語境化AI思考與確定性規則結合,形成合乎邏輯且易於理解的流程。
成果與商業影響
這個方案帶來了顯著成果:
這不僅是技術上的勝利,更是商業上的成功。
核心學習點
總結
屬性值正規化乍聽簡單,但在數百萬商品規模下,卻是個真正的挑戰。結合LLM智慧、確定性規則、資料持久化與商家控制,將一個複雜且隱藏的問題轉化為一個可擴展、可維護的系統。
最大成就往往來自於解決那些被低估的問題——那些容易被忽視、卻在每個商品頁面上都會出現的問題。屬性一致性正是這樣一個問題。