Масштабування платформ електронної комерції вимагає рішень для відомих проблем, таких як розподілений пошук, управління запасами у реальному часі та системи рекомендацій. Однак під поверхнею ховається настирна, часто недооцінена проблема, яка майже кожного онлайн-торговця турбує: управління та нормалізація значень атрибутів. Хоча ця задача спочатку здається тривіальною, при застосуванні до кількох мільйонів товарів, кожен з яких має десятки атрибутів, виникають значні ускладнення.
Прихована проблема якості даних про продукти
Атрибути товарів виступають фундаментом для їхнього відкриття. Вони керують фільтрами, порівняльними функціями, релевантністю пошуку та персоналізованими рекомендаціями. У реальних каталогах значення атрибутів рідко представлені у оптимальній формі: вони мають несумісності, дублікати, неправильне форматування або семантичну неоднозначність.
Розглянемо конкретні приклади:
Для розміру значення можуть бути такими: «XL», «Small», «12cm», «Large», «M», «S». Колір також може бути хаотично перерахований: «RAL 3020», «Crimson», «Red», «Dark Red». Окремо ці відхилення здаються нешкідливими. Але при масштабі у 3 мільйони SKU, кожен з яких має десятки атрибутів, ця проблема стає структурно критичною.
Наслідки очевидні: фільтри працюють непередбачувано, пошукові системи втрачають точність, ручні процеси очищення вимагають величезних ресурсів, а відкриття продуктів стає повільнішим і більш фрустрованим для користувачів.
Архітектурний підхід: гібридний штучний інтелект із суворим контролем
Рішення полягало не у впровадженні чорної скриньки ШІ, яка приймає непрозорі рішення. Такі системи важко відслідковувати, їх важко налагоджувати і вони схильні до неконтрольованого поширення помилок. Замість цього була розроблена гібридна конвеєрна лінія, яка:
Залишається пояснюваною – кожне рішення можна простежити
Працює передбачувано – без випадкових варіацій
Масштабована – обробляє мільйони документів
Контрольована людьми – вбудовані механізми контролю
Результатом стала гібридна архітектура, яка поєднує контекстуальне міркування великих мовних моделей (LLM) з детерміністичними правилами та контролерами торговців. ШІ з обмеженнями, а не ШІ без контролю.
Чому офлайн-обробка була правильним вибором
Усі нормалізації атрибутів виконуються не у реальному часі, а у асинхронних фонових задачах. Це не було компромісним рішенням, а свідомим архітектурним вибором із значними перевагами:
Переваги пакетної обробки:
Висока пропускна здатність: обробляються великі обсяги даних без навантаження на живі системи
Стійкість: збої ніколи не порушують клієнтський трафік
Оптимізація витрат: обчислення виконуються у часи низького навантаження
Ізоляція систем: затримки LLM не впливають на сторінки продуктів
Детермінізм: оновлення атомарні та відтворювані
На відміну від цього, обробка у реальному часі могла б спричинити непередбачувані затримки, крихкі залежності, дорогі обчислення та операційну нестабільність. Ізоляція систем, орієнтованих на клієнта, від потоків даних є критичною на великому масштабі.
Збереження даних як гарантія стабільності
Ключовим аспектом архітектури була зважена персистенція даних. Усі нормалізовані результати зберігаються безпосередньо у централізованій базі даних Product MongoDB. Ця стратегія зберігання виконувала кілька функцій:
Операційна прозорість: зміни можна перевірити та відслідкувати
Гнучкість: значення можна вручну переписати або категорії повторно обробити
Інтеграція систем: легка синхронізація з іншими сервісами
Аудитованість: повний журнал змін для бізнес-критичних процесів
MongoDB став центральним сховищем для відсортованих значень атрибутів, уточнених назв атрибутів, категорійних тегів сортування та полів sortOrder, пов’язаних із продуктами. Це забезпечувало консистентність і стабільність у всій екосистемі.
Технічний процес обробки
Перед застосуванням ШІ виконується строгий попередній етап обробки для зменшення шуму:
Обрізання пробілів
Видалення порожніх значень
Дедуплікація дублікатів
Уніфікація контексту категорій
Цей, здавалося б, простий крок суттєво підвищує точність LLM. Викид сміття призводить до отримання сміття – і при такій кількості даних навіть незначні помилки можуть згодом призвести до серйозних проблем.
Далі сервіс LLM отримує очищений вхід із контекстом:
очищені значення атрибутів
ієрархічна інформація категорій
метадані щодо типу атрибуту
З цим контекстом модель розпізнає:
що «Напруга» у електроінструментах має бути числово відсортованою
що «Розмір» у одязі слідує відомим прогресіям
що «Колір» можливо враховує стандарти RAL
що «Матеріал» має семантичні зв’язки
Модель повертає: впорядковані значення, уточнені назви атрибутів і класифікацію (детерміновано vs. контекстуально).
Детерміністичні резерви для ефективності
Не кожен атрибут потребує reasoning ШІ. числові діапазони, значення з одиницями та прості набори даних вигідно обробляються за допомогою:
швидшої обробки
передбачуваного сортування
нижчих витрат
усунення неоднозначності
Конвеєр автоматично розпізнає такі випадки і застосовує детерміністичну логіку – ефективне використання ресурсів без зайвих викликів LLM.
Контроль людини через систему тегів
Торговці потребують можливості втручання, особливо для критичних атрибутів. Тому кожна категорія може бути позначена як:
LLM_SORT: модель приймає рішення
MANUAL_SORT: оператор визначає порядок вручну
Ця двонапрямна система тегів створює довіру: люди зберігають кінцевий контроль, а ШІ бере на себе масову обробку.
Інтеграція пошуку як точка валідації
Після нормалізації впорядковані значення потрапляють до спеціалізованих систем пошуку:
Elasticsearch для пошуку за ключовими словами
Vespa для семантичного та векторного пошуку
Це забезпечує, що:
фільтри з’являються у логічному порядку
сторінки продуктів показують послідовні атрибути
пошукові системи краще ранжують товари
клієнти легше знаходять категорії
Інтеграція пошуку була місцем, де атрибутна консистентність була найвидимішою і найкритичнішою.
Архітектурний огляд системи
Весь процес системи виглядає так:
Дані продукту надходять із системи управління інформацією про товари
Задача витягання атрибутів отримує значення та контекст категорій
Сервіс розумного сортування виконує інтелектуальні міркування
Оновлені документи зберігаються у Product MongoDB
Задача синхронізації оновлює PIM новими порядками сортування
Задачі синхронізації Elasticsearch & Vespa передають нормалізовані дані
API-сервіси з’єднують системи пошуку з клієнтськими додатками
Ця стратегія збереження гарантує, що кожне значення атрибуту – чи то відсортоване ШІ, чи вручну визначене – відображається у пошуку, мерчендайзингу та взаємодії з клієнтами.
Практичні результати трансформації
Конвеєр перетворив хаотичні сирі значення у послідовний, консистентний вигляд:
Атрибут
Сирі значення
Нормалізовані значення
Розмір
XL, Small, 12cm, Large, M, S
Small, M, Large, XL, 12cm
Колір
RAL 3020, Crimson, Red, Dark Red
Red, Dark Red, Crimson, Red (RAL 3020)
Матеріал
Steel, Carbon Steel, Stainless, Stainless Steel
Steel, Stainless Steel, Carbon Steel
Числові
5cm, 12cm, 2cm, 20cm
2cm, 5cm, 12cm, 20cm
Ці приклади демонструють, як поєднання контекстуального мислення ШІ з детерміністичними правилами створює логічні, зрозумілі послідовності.
Результати та бізнесовий вплив
Рішення дало значущі результати:
Консистентна сортування атрибутів для понад 3М SKU
Передбачуваний числовий порядок через детерміністичні резерви
Операційний контроль через тегування торговців
Візуальні покращення на сторінках товарів із інтуїтивнішими фільтрами
Збільшення релевантності пошуку та точності ранжування
Посилення довіри клієнтів і зростання конверсії
Це був не просто технічний успіх, а й безпосередній бізнес-результат.
Основні висновки
Гібридні конвеєри перевершують чистий ШІ: обмеження та контроль є критичними у масштабі
Контекст – король: контекстуальні дані значно підвищують точність LLM
Офлайн-задачі незамінні: вони забезпечують пропускну здатність, стійкість і оптимізацію витрат
Переписування людьми створює довіру: оператори приймають системи, які вони можуть контролювати
Чисті дані – основа: якість даних є передумовою надійних виходів ШІ
Збереження даних гарантує стабільність: централізоване зберігання дозволяє аудит і контроль
Висновок
Нормалізація значень атрибутів здається простою, але при масштабуванні до мільйонів товарів стає справжнім викликом. Завдяки поєднанню інтелекту LLM із детерміністичними правилами, гарантіями збереження та контролем торговців, було трансформовано складну, приховану проблему у масштабовану, підтримувану систему.
Найбільші успіхи часто виникають не при вирішенні очевидних викликів, а при подоланні недооцінених проблем – тих, що легко пропускаються, але з’являються на кожній сторінці товару. Консистентність атрибутів саме така проблема.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Масштабна електронна комерція: Як ШІ забезпечує послідовність характеристик продуктів для мільйонів SKU
Масштабування платформ електронної комерції вимагає рішень для відомих проблем, таких як розподілений пошук, управління запасами у реальному часі та системи рекомендацій. Однак під поверхнею ховається настирна, часто недооцінена проблема, яка майже кожного онлайн-торговця турбує: управління та нормалізація значень атрибутів. Хоча ця задача спочатку здається тривіальною, при застосуванні до кількох мільйонів товарів, кожен з яких має десятки атрибутів, виникають значні ускладнення.
Прихована проблема якості даних про продукти
Атрибути товарів виступають фундаментом для їхнього відкриття. Вони керують фільтрами, порівняльними функціями, релевантністю пошуку та персоналізованими рекомендаціями. У реальних каталогах значення атрибутів рідко представлені у оптимальній формі: вони мають несумісності, дублікати, неправильне форматування або семантичну неоднозначність.
Розглянемо конкретні приклади:
Для розміру значення можуть бути такими: «XL», «Small», «12cm», «Large», «M», «S». Колір також може бути хаотично перерахований: «RAL 3020», «Crimson», «Red», «Dark Red». Окремо ці відхилення здаються нешкідливими. Але при масштабі у 3 мільйони SKU, кожен з яких має десятки атрибутів, ця проблема стає структурно критичною.
Наслідки очевидні: фільтри працюють непередбачувано, пошукові системи втрачають точність, ручні процеси очищення вимагають величезних ресурсів, а відкриття продуктів стає повільнішим і більш фрустрованим для користувачів.
Архітектурний підхід: гібридний штучний інтелект із суворим контролем
Рішення полягало не у впровадженні чорної скриньки ШІ, яка приймає непрозорі рішення. Такі системи важко відслідковувати, їх важко налагоджувати і вони схильні до неконтрольованого поширення помилок. Замість цього була розроблена гібридна конвеєрна лінія, яка:
Результатом стала гібридна архітектура, яка поєднує контекстуальне міркування великих мовних моделей (LLM) з детерміністичними правилами та контролерами торговців. ШІ з обмеженнями, а не ШІ без контролю.
Чому офлайн-обробка була правильним вибором
Усі нормалізації атрибутів виконуються не у реальному часі, а у асинхронних фонових задачах. Це не було компромісним рішенням, а свідомим архітектурним вибором із значними перевагами:
Переваги пакетної обробки:
На відміну від цього, обробка у реальному часі могла б спричинити непередбачувані затримки, крихкі залежності, дорогі обчислення та операційну нестабільність. Ізоляція систем, орієнтованих на клієнта, від потоків даних є критичною на великому масштабі.
Збереження даних як гарантія стабільності
Ключовим аспектом архітектури була зважена персистенція даних. Усі нормалізовані результати зберігаються безпосередньо у централізованій базі даних Product MongoDB. Ця стратегія зберігання виконувала кілька функцій:
MongoDB став центральним сховищем для відсортованих значень атрибутів, уточнених назв атрибутів, категорійних тегів сортування та полів sortOrder, пов’язаних із продуктами. Це забезпечувало консистентність і стабільність у всій екосистемі.
Технічний процес обробки
Перед застосуванням ШІ виконується строгий попередній етап обробки для зменшення шуму:
Цей, здавалося б, простий крок суттєво підвищує точність LLM. Викид сміття призводить до отримання сміття – і при такій кількості даних навіть незначні помилки можуть згодом призвести до серйозних проблем.
Далі сервіс LLM отримує очищений вхід із контекстом:
З цим контекстом модель розпізнає:
Модель повертає: впорядковані значення, уточнені назви атрибутів і класифікацію (детерміновано vs. контекстуально).
Детерміністичні резерви для ефективності
Не кожен атрибут потребує reasoning ШІ. числові діапазони, значення з одиницями та прості набори даних вигідно обробляються за допомогою:
Конвеєр автоматично розпізнає такі випадки і застосовує детерміністичну логіку – ефективне використання ресурсів без зайвих викликів LLM.
Контроль людини через систему тегів
Торговці потребують можливості втручання, особливо для критичних атрибутів. Тому кожна категорія може бути позначена як:
Ця двонапрямна система тегів створює довіру: люди зберігають кінцевий контроль, а ШІ бере на себе масову обробку.
Інтеграція пошуку як точка валідації
Після нормалізації впорядковані значення потрапляють до спеціалізованих систем пошуку:
Це забезпечує, що:
Інтеграція пошуку була місцем, де атрибутна консистентність була найвидимішою і найкритичнішою.
Архітектурний огляд системи
Весь процес системи виглядає так:
Ця стратегія збереження гарантує, що кожне значення атрибуту – чи то відсортоване ШІ, чи вручну визначене – відображається у пошуку, мерчендайзингу та взаємодії з клієнтами.
Практичні результати трансформації
Конвеєр перетворив хаотичні сирі значення у послідовний, консистентний вигляд:
Ці приклади демонструють, як поєднання контекстуального мислення ШІ з детерміністичними правилами створює логічні, зрозумілі послідовності.
Результати та бізнесовий вплив
Рішення дало значущі результати:
Це був не просто технічний успіх, а й безпосередній бізнес-результат.
Основні висновки
Висновок
Нормалізація значень атрибутів здається простою, але при масштабуванні до мільйонів товарів стає справжнім викликом. Завдяки поєднанню інтелекту LLM із детерміністичними правилами, гарантіями збереження та контролем торговців, було трансформовано складну, приховану проблему у масштабовану, підтримувану систему.
Найбільші успіхи часто виникають не при вирішенні очевидних викликів, а при подоланні недооцінених проблем – тих, що легко пропускаються, але з’являються на кожній сторінці товару. Консистентність атрибутів саме така проблема.