En el comercio electrónico, los técnicos suelen hablar frecuentemente de grandes problemas de infraestructura: arquitectura de búsqueda, gestión de inventario en tiempo real, máquinas de personalización. Pero bajo la superficie se esconde un problema más insidioso que afecta a casi todos los minoristas en línea: la normalización de atributos de productos. Un catálogo caótico con valores inconsistentes para tamaño, color, material o especificaciones técnicas sabotea todo lo que viene después: los filtros funcionan de manera poco fiable, los motores de búsqueda pierden precisión, la limpieza manual de datos consume recursos.
Como ingeniero full-stack en Zoro, me enfrentaba a diario a este problema: ¿Cómo poner orden en más de 3 millones de SKUs, cada uno con decenas de atributos? La respuesta no residía en una caja negra de IA, sino en un sistema híbrido inteligente que combina la capacidad de razonamiento de LLM con reglas claras de negocio y mecanismos de control manual.
El problema a gran escala
A simple vista, las incoherencias en atributos parecen inofensivas. Pensemos en las medidas: “XL”, “Small”, “12cm”, “Large”, “M”, “S” — todo significa lo mismo, pero nada está estandarizado. En cuanto a colores, la situación es similar: “RAL 3020”, “Crimson”, “Red”, “Dark Red” — en algunos casos, estándares de color como (RAL 3020 es un rojo normativo), en otros, nombres de fantasía.
Multiplica esta desorganización por millones de productos, y los efectos son dramáticos:
Los clientes ven filtros caóticos y abandonan la búsqueda
Los motores de búsqueda no pueden clasificar correctamente los productos
Los análisis muestran tendencias erróneas
Los equipos de merchandising se ahogan en limpieza manual de datos
Enfoque estratégico: IA híbrida con reglas
Mi objetivo no era un sistema de IA misterioso que practique magia negra. Quería un sistema que:
Sea explicable — se entienda por qué se tomó una decisión
Funcione de forma predecible — sin fallos o anomalías sorpresivas
Escale — más allá de millones de atributos
Permita control humano — los equipos de negocio puedan intervenir
El resultado fue una pipeline que combina la inteligencia de LLM con reglas claras y control de negocio. IA con límites, no IA sin fronteras.
¿Por qué procesamiento offline en lugar de en tiempo real?
La primera decisión arquitectónica fue fundamental: toda la procesamiento de atributos se realiza en trabajos asíncronos en segundo plano, no en tiempo real. Parece un compromiso, pero fue una decisión estratégica con enormes ventajas:
Las pipelines en tiempo real habrían causado:
Latencias impredecibles en las páginas de producto
Dependencias frágiles entre sistemas
Costes elevados en picos de tráfico
Impacto directo en la experiencia del cliente
En cambio, los trabajos offline ofrecían:
Alto rendimiento: lotes masivos sin afectar el sistema en vivo
Robustez: errores de procesamiento nunca afectan al cliente
Control de costes: realizar cálculos en momentos de baja carga
Aislamiento: la latencia de LLM está aislada de los servicios orientados al usuario
Actualizaciones atómicas: cambios consistentes o ninguno
Separar los sistemas de cliente y procesamiento de datos es esencial cuando se trabaja con esta cantidad de datos.
La pipeline de procesamiento
El proceso se dividía en varias fases:
Fase 1: Limpieza de datos
Antes incluso de usar IA, los datos pasaban por un paso previo:
Recortar espacios en blanco
Eliminar valores vacíos
Deduplciar duplicados
Convertir el contexto de categoría en cadenas estructuradas
Este paso aparentemente trivial mejoraba dramáticamente la precisión del LLM. La regla: basura entra, basura sale. A esta escala, pequeños errores más adelante generan grandes problemas.
Fase 2: Razonamiento con IA y contexto
El LLM no solo ordenaba alfabéticamente. Pensaba en los valores. El servicio recibía:
Valores de atributos limpios
Breadcrumbs de categoría (por ejemplo, “Herramientas eléctricas > Taladros”)
Metadatos de atributos
Con este contexto, el modelo podía entender:
Que “tensión” en herramientas eléctricas debe ordenarse numéricamente
Que “tamaño” sigue una progresión conocida (S, M, L, XL)
Que “color” puede seguir estándares como RAL 3020
Que “material” tiene relaciones semánticas (Acero > Acero inoxidable > Acero al carbono)
El modelo devolvía:
Valores de atributos ordenados
Nombres de atributos refinados
Una clasificación: ¿debería ordenarse de forma determinista o contextual?
Fase 3: FallBacks deterministas
No todos los atributos necesitan IA. Muchos se gestionan mejor con lógica clara:
Rangos numéricos (2cm, 5cm, 12cm, 20cm → orden ascendente)
Valores con unidades
Colecciones categóricas
La pipeline detectaba automáticamente estos casos y aplicaba lógica determinista. Ahorraba costes y garantizaba coherencia.
Fase 4: Control manual por parte del comerciante
Atributos críticos requerían revisión manual. Por eso, cada categoría podía marcarse como:
LLM_SORT: el modelo decide
MANUAL_SORT: el comerciante define el orden
Este sistema dual daba la última palabra a los humanos. Si el LLM cometía un error, los comerciantes podían sobreescribirlo sin detener toda la pipeline.
Persistencia y sistemas posteriores
Todos los resultados se almacenaban directamente en MongoDB — una única fuente de verdad para:
Orden de atributos
Nombres refinados
Etiquetas de orden por categoría
Orden en nivel de producto
Luego, los datos se integraban en dos direcciones:
Elasticsearch: para búsqueda por palabras clave, donde los filtros limpios impulsan menús
Vespa: para búsqueda semántica y basada en vectores, donde la coherencia mejora el ranking
Los filtros ahora aparecen en orden lógico. Las páginas muestran especificaciones coherentes. Los buscadores clasifican con mayor precisión. Los clientes navegan sin frustración.
Resultados concretos
La pipeline transformó datos crudos caóticos en salidas limpias y utilizables:
Atributo
Datos crudos
Salida ordenada
Tamaño
XL, Small, 12cm, Large, M, S
Small, M, Large, XL, 12cm
Color
RAL 3020, Crimson, Red, Dark Red
Red, Dark Red, Crimson, RAL 3020
Material
Steel, Carbon Steel, Stainless, Stainless Steel
Steel, Stainless Steel, Carbon Steel
Numérico
5cm, 12cm, 2cm, 20cm
2cm, 5cm, 12cm, 20cm
Esta transformación fue consistente en más de 3 millones de SKUs.
Impacto y resultados
Los efectos fueron mucho más allá de lo técnico:
Orden coherente de atributos en todo el catálogo
Comportamiento predecible en valores numéricos gracias a los fallbacks
Control de negocio mediante etiquetado manual
Páginas limpias con filtros intuitivos
Mejora en relevancia de búsqueda para los clientes
Mayor confianza y mejores tasas de conversión
No solo fue un éxito técnico, sino un triunfo comercial.
Conclusiones clave
Las pipelines híbridas superan a la IA pura a gran escala. Las reglas no son un obstáculo, son una ventaja.
El contexto lo es todo: un LLM con información de categoría y metadatos es 10 veces más preciso que uno sin ello.
El procesamiento offline es esencial: con esta cantidad de datos, se requiere eficiencia en batch y tolerancia a errores, no latencia en tiempo real.
El control humano genera confianza: los equipos aceptan la IA cuando pueden controlarla.
La higiene de datos es la base: entradas limpias = salidas confiables. Siempre.
Conclusión
Normalizar atributos puede parecer trivial — hasta que hay que hacerlo en millones de productos en tiempo real. Combinando la inteligencia de LLM, reglas claras y control humano, convertí un problema oculto y persistente en un sistema escalable.
Es un recordatorio: algunos de los grandes logros en e-commerce no vienen de tecnologías llamativas, sino de resolver los problemas aburridos — aquellos que afectan cada página de producto.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
De caos a claridad: Cómo la inteligencia artificial transforma los catálogos de comercio electrónico
En el comercio electrónico, los técnicos suelen hablar frecuentemente de grandes problemas de infraestructura: arquitectura de búsqueda, gestión de inventario en tiempo real, máquinas de personalización. Pero bajo la superficie se esconde un problema más insidioso que afecta a casi todos los minoristas en línea: la normalización de atributos de productos. Un catálogo caótico con valores inconsistentes para tamaño, color, material o especificaciones técnicas sabotea todo lo que viene después: los filtros funcionan de manera poco fiable, los motores de búsqueda pierden precisión, la limpieza manual de datos consume recursos.
Como ingeniero full-stack en Zoro, me enfrentaba a diario a este problema: ¿Cómo poner orden en más de 3 millones de SKUs, cada uno con decenas de atributos? La respuesta no residía en una caja negra de IA, sino en un sistema híbrido inteligente que combina la capacidad de razonamiento de LLM con reglas claras de negocio y mecanismos de control manual.
El problema a gran escala
A simple vista, las incoherencias en atributos parecen inofensivas. Pensemos en las medidas: “XL”, “Small”, “12cm”, “Large”, “M”, “S” — todo significa lo mismo, pero nada está estandarizado. En cuanto a colores, la situación es similar: “RAL 3020”, “Crimson”, “Red”, “Dark Red” — en algunos casos, estándares de color como (RAL 3020 es un rojo normativo), en otros, nombres de fantasía.
Multiplica esta desorganización por millones de productos, y los efectos son dramáticos:
Enfoque estratégico: IA híbrida con reglas
Mi objetivo no era un sistema de IA misterioso que practique magia negra. Quería un sistema que:
El resultado fue una pipeline que combina la inteligencia de LLM con reglas claras y control de negocio. IA con límites, no IA sin fronteras.
¿Por qué procesamiento offline en lugar de en tiempo real?
La primera decisión arquitectónica fue fundamental: toda la procesamiento de atributos se realiza en trabajos asíncronos en segundo plano, no en tiempo real. Parece un compromiso, pero fue una decisión estratégica con enormes ventajas:
Las pipelines en tiempo real habrían causado:
En cambio, los trabajos offline ofrecían:
Separar los sistemas de cliente y procesamiento de datos es esencial cuando se trabaja con esta cantidad de datos.
La pipeline de procesamiento
El proceso se dividía en varias fases:
Fase 1: Limpieza de datos
Antes incluso de usar IA, los datos pasaban por un paso previo:
Este paso aparentemente trivial mejoraba dramáticamente la precisión del LLM. La regla: basura entra, basura sale. A esta escala, pequeños errores más adelante generan grandes problemas.
Fase 2: Razonamiento con IA y contexto
El LLM no solo ordenaba alfabéticamente. Pensaba en los valores. El servicio recibía:
Con este contexto, el modelo podía entender:
El modelo devolvía:
Fase 3: FallBacks deterministas
No todos los atributos necesitan IA. Muchos se gestionan mejor con lógica clara:
La pipeline detectaba automáticamente estos casos y aplicaba lógica determinista. Ahorraba costes y garantizaba coherencia.
Fase 4: Control manual por parte del comerciante
Atributos críticos requerían revisión manual. Por eso, cada categoría podía marcarse como:
Este sistema dual daba la última palabra a los humanos. Si el LLM cometía un error, los comerciantes podían sobreescribirlo sin detener toda la pipeline.
Persistencia y sistemas posteriores
Todos los resultados se almacenaban directamente en MongoDB — una única fuente de verdad para:
Luego, los datos se integraban en dos direcciones:
Los filtros ahora aparecen en orden lógico. Las páginas muestran especificaciones coherentes. Los buscadores clasifican con mayor precisión. Los clientes navegan sin frustración.
Resultados concretos
La pipeline transformó datos crudos caóticos en salidas limpias y utilizables:
Esta transformación fue consistente en más de 3 millones de SKUs.
Impacto y resultados
Los efectos fueron mucho más allá de lo técnico:
No solo fue un éxito técnico, sino un triunfo comercial.
Conclusiones clave
Conclusión
Normalizar atributos puede parecer trivial — hasta que hay que hacerlo en millones de productos en tiempo real. Combinando la inteligencia de LLM, reglas claras y control humano, convertí un problema oculto y persistente en un sistema escalable.
Es un recordatorio: algunos de los grandes logros en e-commerce no vienen de tecnologías llamativas, sino de resolver los problemas aburridos — aquellos que afectan cada página de producto.