В сфере электронной коммерции технические специалисты часто обсуждают крупные инфраструктурные проблемы: архитектуру поиска, управление запасами в реальном времени, системы персонализации. Но под поверхностью скрывается более коварная проблема, которая мучит почти каждого онлайн-ритейлера: нормализация атрибутов товаров. Хаотичный каталог с несогласованными значениями для размера, цвета, материала или технических характеристик саботирует всё последующее — фильтры работают ненадёжно, поисковые системы теряют точность, ручная очистка данных съедает ресурсы.
Работая full-stack-инженером в Zoro, я ежедневно сталкивался с этой задачей: как привести в порядок более 3 миллионов SKU, у каждого из которых десятки атрибутов? Ответ не лежал в чёрной коробке ИИ, а в умной гибридной системе, объединяющей возможности LLM с ясными бизнес-правилами и ручными контрольными механизмами.
Проблема в большом масштабе
На первый взгляд, несогласованность атрибутов кажется безобидной. Возьмём размеры: «XL», «Small», «12cm», «Large», «M», «S» — всё означает одно и то же, но стандартизации нет. В цветах ситуация похожая: «RAL 3020», «Crimson», «Red», «Dark Red» — частично стандарты цвета (RAL 3020 — это нормативный красный), частично — фантазийные названия.
Умножьте этот хаос на миллионы товаров — и последствия станут драматичными:
клиенты видят хаотичные фильтры и бросают поиск
поисковые системы не могут правильно ранжировать товары
аналитика показывает ложные тренды
команды мерчендайзинга тонут в ручной очистке данных
Стратегический подход: гибридный ИИ с правилами
Моя цель — не создать загадочную систему, которая творит магию. Я хотел систему, которая:
Объяснима — понятно, почему было принято решение
Предсказуема — без неожиданных сбоев или аномалий
Масштабируема — по миллионам атрибутов
Остаётся управляемой человеком — бизнес-команды могут вмешиваться
Результатом стала пайплайн, сочетающая интеллект LLM с ясными правилами и бизнес-контролем. ИИ с ограничениями, а не безграничный.
Почему офлайн-обработка вместо реального времени?
Первое архитектурное решение было принципиальным: вся обработка атрибутов идёт в асинхронных фоновых задачах, а не в реальном времени. Это кажется компромиссом, но на самом деле — стратегическим решением с огромными преимуществами:
Реалтайм-процессы могли бы вызвать:
непредсказуемую задержку на страницах товаров
хрупкие зависимости между системами
рост затрат при пиковых нагрузках
прямое влияние на пользовательский опыт
В то время как офлайн-задания обеспечивают:
высокий пропускной поток: массовые батчи без влияния на живую систему
надёжность: ошибки обработки никогда не затрагивают клиентов
контроль затрат: выполнение в периоды низкой нагрузки
изоляцию: задержки LLM изолированы от пользовательских сервисов
атомарные обновления: только согласованные изменения или ничего
Разделение систем для клиентов и обработки данных — ключевое при работе с таким объёмом данных.
Обработка в пайплайне
Процесс проходил в несколько этапов:
Этап 1: очистка данных
Прежде чем подключать ИИ, данные проходили предварительную обработку:
удаление лишних пробелов
удаление пустых значений
дедупликация
преобразование категорий в структурированные строки
Этот, казалось бы, тривиальный шаг значительно повышал точность LLM. Принцип: мусор — мусор. На таком масштабе даже малейшие ошибки приводят к серьёзным проблемам.
Этап 2: ИИ-рассуждение с контекстом
LLM не просто сортировал по алфавиту. Он думал о значениях. Сервис получал:
очищенные атрибуты
хлебные крошки категорий (например, «Электроинструменты > Дрели»)
метаданные атрибутов
С этим контекстом модель могла понять:
что «напряжение» у электроинструментов лучше сортировать числовым порядком
что «размер» следует известной прогрессии (S, M, L, XL)
что «цвет» иногда подчиняется стандартам RAL
что «материал» имеет семантические связи (Сталь > Нержавеющая сталь > Углеродистая сталь)
Модель возвращала:
отсортированные значения атрибутов
уточнённые названия атрибутов
классификацию: должна ли сортировка быть детерминированной или контекстуальной?
Этап 3: детерминированные fallback-методы
Не все атрибуты требуют ИИ. Многие лучше обрабатывать логикой:
числовые диапазоны (2cm, 5cm, 12cm, 20cm → сортировка по возрастанию)
значения с единицами измерения
категориальные коллекции
Пайплайн автоматически распознавал такие случаи и применял deterministic-логику. Это экономило ресурсы и обеспечивало гарантированную консистентность.
Этап 4: контроль со стороны продавца
Критичные для бизнеса атрибуты требовали ручной проверки. Поэтому каждую категорию можно было пометить как:
LLM_SORT: модель определяет порядок
MANUAL_SORT: продавец задаёт порядок
Это двойное управление давало людям финальный контроль. Если модель ошибалась, продавцы могли переопределить — без остановки пайплайна.
Хранение и системы последующего использования
Все результаты сохранялись прямо в MongoDB — единственный источник правды для:
отсортированных значений
уточнённых названий атрибутов
тегов сортировки на уровне категории
порядка сортировки на уровне товара
Далее данные поступали в два направления:
Elasticsearch: для поиска по ключевым словам, где фильтры работают на чистых атрибутах
Vespa: для семантического и векторного поиска, где консистентность повышает релевантность
Фильтры теперь отображаются в логической последовательности. Страницы товаров показывают согласованные спецификации. Поисковые системы ранжируют товары точнее. Клиенты проходят по категориям без разочарования.
Конкретные результаты
Пайплайн преобразовал хаотичные исходные данные в чистые, пригодные к использованию:
Атрибут
Исходные данные
Отсортированный вывод
Размер
XL, Small, 12cm, Large, M, S
Small, M, Large, XL, 12cm
Цвет
RAL 3020, Crimson, Red, Dark Red
Red, Dark Red, Crimson, RAL 3020
Материал
Steel, Carbon Steel, Stainless, Stainless Steel
Steel, Stainless Steel, Carbon Steel
Числовые
5cm, 12cm, 2cm, 20cm
2cm, 5cm, 12cm, 20cm
Эта трансформация была последовательной для более чем 3 миллионов SKU.
Какие были эффекты
Результаты оказались важнее технологий:
Последовательность атрибутов по всему каталогу
Предсказуемость при числовых значениях благодаря fallback-методам
Бизнес-контроль через ручное управление порядком
Чистые страницы товаров с интуитивными фильтрами
Улучшенная релевантность поиска
Повышенное доверие и конверсия
Это был не только технический успех — бизнес-успех.
Ключевые выводы
Гибридные пайплайны превосходят чистый ИИ в масштабах. Ограничения — не препятствие, а особенность.
Контекст — всё: LLM с информацией о категории и метаданными — в 10 раз точнее, чем без них.
Офлайн-обработка обязательна: при таком объёме данных нужны батч-эффективность и отказоустойчивость, а не задержки в реальном времени.
Человеческий контроль укрепляет доверие: команды принимают ИИ, если могут его контролировать.
Гигиена данных — основа: очищенные входные данные дают надёжные выходы. Обязательно.
Итог
Нормализация атрибутов кажется тривиальной задачей — пока не приходится делать это в реальном времени для миллионов товаров. Благодаря сочетанию возможностей LLM, чётких правил и человеческого контроля я превратил скрытую, упорную проблему в масштабируемую систему.
Это напоминание: некоторые крупные победы в электронной коммерции достигаются не за счёт модных технологий, а за счёт решения скучных, но критичных проблем — тех, что касаются каждой страницы товара.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
От хаоса к ясности: как искусственный интеллект трансформирует каталоги электронной коммерции
В сфере электронной коммерции технические специалисты часто обсуждают крупные инфраструктурные проблемы: архитектуру поиска, управление запасами в реальном времени, системы персонализации. Но под поверхностью скрывается более коварная проблема, которая мучит почти каждого онлайн-ритейлера: нормализация атрибутов товаров. Хаотичный каталог с несогласованными значениями для размера, цвета, материала или технических характеристик саботирует всё последующее — фильтры работают ненадёжно, поисковые системы теряют точность, ручная очистка данных съедает ресурсы.
Работая full-stack-инженером в Zoro, я ежедневно сталкивался с этой задачей: как привести в порядок более 3 миллионов SKU, у каждого из которых десятки атрибутов? Ответ не лежал в чёрной коробке ИИ, а в умной гибридной системе, объединяющей возможности LLM с ясными бизнес-правилами и ручными контрольными механизмами.
Проблема в большом масштабе
На первый взгляд, несогласованность атрибутов кажется безобидной. Возьмём размеры: «XL», «Small», «12cm», «Large», «M», «S» — всё означает одно и то же, но стандартизации нет. В цветах ситуация похожая: «RAL 3020», «Crimson», «Red», «Dark Red» — частично стандарты цвета (RAL 3020 — это нормативный красный), частично — фантазийные названия.
Умножьте этот хаос на миллионы товаров — и последствия станут драматичными:
Стратегический подход: гибридный ИИ с правилами
Моя цель — не создать загадочную систему, которая творит магию. Я хотел систему, которая:
Результатом стала пайплайн, сочетающая интеллект LLM с ясными правилами и бизнес-контролем. ИИ с ограничениями, а не безграничный.
Почему офлайн-обработка вместо реального времени?
Первое архитектурное решение было принципиальным: вся обработка атрибутов идёт в асинхронных фоновых задачах, а не в реальном времени. Это кажется компромиссом, но на самом деле — стратегическим решением с огромными преимуществами:
Реалтайм-процессы могли бы вызвать:
В то время как офлайн-задания обеспечивают:
Разделение систем для клиентов и обработки данных — ключевое при работе с таким объёмом данных.
Обработка в пайплайне
Процесс проходил в несколько этапов:
Этап 1: очистка данных
Прежде чем подключать ИИ, данные проходили предварительную обработку:
Этот, казалось бы, тривиальный шаг значительно повышал точность LLM. Принцип: мусор — мусор. На таком масштабе даже малейшие ошибки приводят к серьёзным проблемам.
Этап 2: ИИ-рассуждение с контекстом
LLM не просто сортировал по алфавиту. Он думал о значениях. Сервис получал:
С этим контекстом модель могла понять:
Модель возвращала:
Этап 3: детерминированные fallback-методы
Не все атрибуты требуют ИИ. Многие лучше обрабатывать логикой:
Пайплайн автоматически распознавал такие случаи и применял deterministic-логику. Это экономило ресурсы и обеспечивало гарантированную консистентность.
Этап 4: контроль со стороны продавца
Критичные для бизнеса атрибуты требовали ручной проверки. Поэтому каждую категорию можно было пометить как:
Это двойное управление давало людям финальный контроль. Если модель ошибалась, продавцы могли переопределить — без остановки пайплайна.
Хранение и системы последующего использования
Все результаты сохранялись прямо в MongoDB — единственный источник правды для:
Далее данные поступали в два направления:
Фильтры теперь отображаются в логической последовательности. Страницы товаров показывают согласованные спецификации. Поисковые системы ранжируют товары точнее. Клиенты проходят по категориям без разочарования.
Конкретные результаты
Пайплайн преобразовал хаотичные исходные данные в чистые, пригодные к использованию:
Эта трансформация была последовательной для более чем 3 миллионов SKU.
Какие были эффекты
Результаты оказались важнее технологий:
Это был не только технический успех — бизнес-успех.
Ключевые выводы
Итог
Нормализация атрибутов кажется тривиальной задачей — пока не приходится делать это в реальном времени для миллионов товаров. Благодаря сочетанию возможностей LLM, чётких правил и человеческого контроля я превратил скрытую, упорную проблему в масштабируемую систему.
Это напоминание: некоторые крупные победы в электронной коммерции достигаются не за счёт модных технологий, а за счёт решения скучных, но критичных проблем — тех, что касаются каждой страницы товара.