Resumen en un minuto
Siete de cada diez proyectos de computer vision en retail LATAM no llegan a producción. No porque la tecnología sea mala, sino porque se mete donde el ROI no cierra. Aquí va el desglose honesto: qué se está pagando solo en Walmex, Falabella y Cencosud, qué nunca va a cerrar, y por qué lo de Amazon Go en Seattle no funciona en una tiendita de Coyoacán.
- Las pérdidas globales del retail por shrink rondan $112 mil millones solo en EE.UU. según el NRF National Retail Security Survey. Las estimaciones para LATAM están más alto: 1.7–2.3% de la facturación contra 1.6% en EE.UU., porque external theft y organized retail crime crecen más rápido que la respuesta operativa.
- Computer vision en retail paga en cuatro escenarios: shelf monitoring (control de planograma), shoplifting detection, queue analytics y self-checkout + smart cart. No paga en tres: facial recognition para targeting demográfico, theft prediction «antes del hecho» y pilotos baratos de una sola cámara.
- Casos LATAM que ya están corriendo: pilotos de Cencosud en Chile para loss prevention, Walmex y Soriana en queue analytics, Sam's Club México con Scan&Go, Carrefour Brasil con smart cart, Falabella con visual search en e-commerce.
- El arranque más barato es shelf monitoring sobre el CCTV que ya tienes: un piloto digno cuesta entre $5–15k, no $300k.
- De cada 10 proyectos de CV en retail, 7 se caen no por el algoritmo sino por la integración con el ERP (Odoo, SAP, Oracle Retail) y el change management operacional.
Por qué ahora y por qué LATAM
El retail en LATAM lleva tres años en modo «exprime margen como puedas». El e-commerce se comió entre 6 y 11% del consumo según el país: Chile 11%, México 8%, Perú 6%, por datos agregados de cámaras de comercio locales y trackers sectoriales 2024–2025. El canal físico no murió, pero el margen se contrajo entre 200 y 400 puntos básicos en cinco años. En paralelo pasaron tres cosas que vuelven a CV técnica y económicamente viable justo ahora, no en 2019.
Primero: el edge computing se abarató 10×. Una NVIDIA Jetson Orin Nano cuesta $250 y aguanta inference en tiempo real sobre 4 cámaras simultáneas. En 2022 ese equivalente costaba $2.5k y exigía un rack de servidor en la trastienda. Para LATAM, donde el internet del local se cae 2–6 veces al mes, edge no es optimización: es la única opción sensata.
Segundo: los foundation models de visión maduraron. YOLOv8/v9, Grounding DINO, SAM 2 y modelos fine-tuned sobre DINOv2 entregan precisión de 92–96% en tareas retail out-of-the-box, sin seis meses de anotación de dataset. Lo que en 2020 pedía un equipo de 8 ML-engineers, en 2026 lo arma un senior CV engineer solo con pipelines listos. El POC pasó de costar $250–400k a $30–80k.
Tercero: los retailers LATAM maduraron en data. Walmex, Falabella, Cencosud y Coppel armaron equipos de datos de 50–200 personas. Sin esa fundación, cualquier proyecto de CV se cae porque el output del modelo no tiene a dónde ir. Hoy los top 20 ya tienen la infraestructura. El formato PYME (50–500 tiendas) la tiene a medias, frecuentemente sobre Odoo + un stack analítico, pero alcanza para pilotos.
Que la infra esté lista es condición necesaria, no suficiente. El siguiente paso es decidir qué mover, no cuánto.
Qué funciona: 4 casos de uso con ROI positivo
Los cuatro escenarios siguientes ya tienen casos públicos con números defendibles en LATAM. El orden refleja la facilidad de implementación, no necesariamente el tamaño del payoff.
#1. Shelf monitoring y control de planograma
Tarea: una cámara sobre la góndola (o el CCTV existente con retrofit) detecta out-of-stock, planograma roto, facings que no coinciden con el acuerdo con el brand-partner. La alerta cae en Telegram, Slack o como ticket en Odoo para el reponedor.
Por qué funciona en LATAM:
- El out-of-stock en supermercados LATAM es crónicamente más alto que en EE.UU. o Europa. Walmex y Soriana han hablado públicamente de OOS de 8–12% en categorías FMCG; Walmart EE.UU. ronda 5%.
- Cada punto porcentual de OOS reducido vale entre 0.5 y 1% de ventas de la categoría. En snacks y personal care eso son $1–3 millones al año en una tienda grande.
- Los brand-partners (Unilever, P&G, Nestlé, Colgate) pagan a vendors CPG como Trax, Pensa Systems o Focal Systems por data de auditoría. Trax cobra por dos lados — al retailer y a la marca. Es uno de los pocos modelos donde el vendor de CV tiene dos bolsillos para facturar.
Números reales: los pilotos de Trax con grandes retailers en Brasil, según material público del propio vendor, redujeron OOS entre 25 y 35% en dry goods. Coca-Cola FEMSA tiene auditorías visuales en OXXO. Pensa Systems entró en Walmart México como POC partner.
Cuándo aplica: tiendas mayores a 500 m², con más de 5,000 SKU y rotación frecuente de surtido. Si tienes un mini-market con 800 SKU y una sola góndola de jugos, mejor un Excel.
#2. Loss prevention (detección de hurto)
Tarea: cámaras en el piso de venta y en cajas detectan patrones sospechosos vía modelos de CV: producto que pasa a la bolsa sin cobrarse, ticket que no cuadra con el carrito, return fraud, sweethearting (el cajero deja pasar mercancía «a los suyos»).
El vendor landscape: Veesion (Francia, activa en LATAM), Everseen (Irlanda, contrato global con Walmart), Standard.ai (ex Standard Cognition) y varios integradores locales en México y Chile.
Por qué paga: el shrink en LATAM, según estimaciones cruzadas de varios consultores de retail y reportes de asociaciones locales de supermercados, está entre 1.7 y 2.3% de facturación. Para un retailer grande son $80–200 millones al año. Bajarlo entre 15 y 25% deja $12–50 millones en EBITDA. Con inversión anual en CV de $1–3 millones, el ROI sale entre 6× y 25×.
Walmart EE.UU. expandió el uso de CV en cajas en 2023. En Chile, Cencosud (Jumbo, Paris, Easy) corrió pilotos de loss prevention con integradores locales. En México los retailers grandes también están probando — públicamente nadie cuenta detalles, y se entiende por qué.
#3. Queue analytics y footfall
Tarea: cámaras que cuentan personas en la tienda, en las filas de cajas, miden dwell time por categoría y conversión de «entró → compró». Dashboard en tiempo real para que el gerente decida dónde abrir caja, a qué cajero mover y dónde reubicar la góndola promocional.
Vendor landscape: RetailNext (EE.UU.), V-Count (Turquía, entrando a LATAM), integradores locales en México y Colombia, y Vodafone Business Retail para formato grande.
Por qué funciona: contar personas no exige modelos de CV ultra-precisos — la precisión de 95% sale out-of-the-box. El beneficio es medible: NPS sube entre 5 y 10 puntos tras implementar despliegue dinámico de cajeros; la conversión por categoría sube entre 3 y 7% al optimizar dwell.
Coppel México, Walmex y Falabella Chile han comunicado públicamente despliegues de people-counter — sin siempre aclarar si es CV completo o un sensor IR más simple.
Cuándo no aplica: tiendas chicas con tráfico bajo (menos de 200 visitas al día). El overhead de instrumentación se come el efecto. Si eres una tiendita en Lima, esto no es para ti.
#4. Self-checkout y smart cart
Tarea: el cliente mete productos en un carro inteligente (o los pone en su bolsa en formato «just walk out»), las cámaras reconocen qué tomó y el ticket se arma solo.
Estado real en 2026:
- Amazon Just Walk Out: en 2024 Amazon retiró Just Walk Out de las Amazon Fresh en EE.UU., dejando la tecnología para Whole Foods Smart Cart y deployments third-party (estadios, aeropuertos). Detalle en About Amazon.
- AiFi: decenas de tiendas desplegadas globalmente, incluyendo partnership con Aldi en Europa y pilotos con Carrefour.
- Carrefour Brasil probó públicamente Scan&Go y formatos smart-cart.
- Sam's Club (Walmex) lleva años con Scan&Go vía app — no es CV puro, pero la dirección es la misma.
Caveat honesto: Just Walk Out es el caso de uso más intensivo en capital. Pricing público de vendors: $300–800k por tienda mediana. No para una PYME LATAM típica. Tiene sentido en formato premium, convenience de alto tráfico o tiendas dentro de moles.
Qué no funciona (o funciona mal)
Los tres escenarios siguientes circulan en cada pitch deck y casi nunca cierran el ROI. Vale la pena nombrarlos antes de que te los vendan.
Facial recognition para marketing demográfico
«La cámara en la entrada detecta edad y género del visitante y muestra publicidad contextual en la pantalla interior.» Suena bien. En la práctica, tres problemas:
- LGPD (Brasil), Ley 25.326 (Argentina), Habeas Data (Colombia, Perú) y LFPDPPP (México) exigen consentimiento explícito para datos biométricos. Un sticker en la puerta con microletra «al entrar acepta el reconocimiento facial» no califica como consentimiento en la mayoría de las jurisdicciones. La ANPD brasileña ya cobró multas por ese escenario.
- La precisión en género y edad cae en LATAM respecto a EE.UU. o UE porque los datasets de entrenamiento están sesgados. Sobre poblaciones de México, Perú o Bolivia, los APIs preentrenados estándar fallan entre 8 y 15% más. El bias está documentado: MIT Media Lab y Algorithmic Justice League tienen publicaciones al respecto.
- El efecto comercial no está probado. Pernod Ricard y L'Oréal corrieron pilotos así en Europa y no publicaron reportes de ROI — lo cual es señal por sí solo.
Veredicto: no lo hagas. Si necesitas segmentación demográfica para marketing, sácala del loyalty program — no del face recognition.
Theft prediction «antes del hecho»
«El modelo predice que esta persona va a robar por sus micro-movimientos y pose estimation, y el guardia se anticipa.» Esto es una fábrica de sesgos. Cualquier modelo entrenado sobre histórico de detenciones hereda los sesgos del histórico — y en LATAM ese sesgo suele ser racista y socioeconómico. El riesgo jurídico (precedente CIDH, habeas data local) y reputacional supera cualquier ROI.
Varios vendors vendieron esto en 2021–2022; la mayoría renombró el producto a «behavior analytics» o «anomaly detection». Si te lo intentan vender, pregunta duro: training data, audit, validación third-party.
Pilotos baratos en una sola cámara
«Ponemos una cámara en una tienda y probamos.» Eso no es un piloto, es un demo. No da datos representativos, no permite medir ROI, no cubre operativa real (rotación de guardias, tráfico real-time, peak hours, seasonality). Ese «piloto» de $5–10k cierra en tres meses con la conclusión «no funciona» — cuando el problema fue que nunca iba a funcionar así.
Piloto mínimo defendible: 3 tiendas, 8 semanas de baseline + 8 semanas de piloto, 20–40 cámaras, hipótesis fija y métrica de éxito definida. Eso son $50–150k. Menos que eso no tiene sentido.
Errores típicos al implementar
Cuando un proyecto de CV se cae en LATAM, la causa raíz casi siempre está en una de estas cinco. Si vas a contratar a un integrador o a un vendor, usa esta lista como filtro durante el pitch.
#1. Comprar un modelo, no un proceso operativo
«Compramos el sistema de shoplifting detection — él solo resuelve.» No. CV entrega una señal. Después necesitas un guardia, un SLA de tiempo de reacción, un escalation flow, un manejo de falsos positivos y reportería para la policía. Sin proceso, el CV es un logger caro.
#2. No calcular el costo del falso positivo
El modelo dispara «posible hurto», el guardia se acerca y la persona no es ladrón. Si pasa dos veces por hora en cada tienda, te rompes el NPS del cliente antes de que el ahorro en shrink pague la inversión. Hay que medir precision/recall con pesos por efecto de negocio, no accuracy en el vacío.
#3. No integrar con el ERP y el POS
La alerta de OOS llega a Slack. ¿Y quién la convierte en orden de compra al proveedor? El replenishment vive en SAP, Odoo u Oracle Retail. Si la alerta no se transforma en un task con deadline y ownership, no sirve. Integrar CV con inventario y compras (los módulos sale + stock + purchase en Odoo, por ejemplo) es entre el 30 y el 40% del scope de cualquier proyecto CV serio en retail. No el 10%, no «lo dejamos para después».
#4. Elegir vendor por pitch deck, no por costo de retraining
Los modelos de CV se degradan. Aparecen SKU nuevos (en FMCG, cada mes), cambian packagings, cambia la iluminación de la tienda (LED nuevas → color balance distinto). El costo de retraining a 6 meses puede ser mayor que el deployment inicial. El vendor debe incluirlo en el precio, o tú en tu TCO.
#5. No hacer baseline measurement
«Arrancó el piloto y las ventas subieron 4%.» ¿Y antes del piloto? ¿Y en las tiendas sin piloto? ¿Y el efecto estacional? Sin 8 semanas de baseline y grupo de control, cualquier claim de ROI es teatro, no medición. Según McKinsey Retail, el 60% de los pilotos «exitosos» de AI en retail no se reproducen al escalar — y casi siempre la causa es diseño experimental flojo.
Caso anónimo: pricing intelligence + visual catalog en beauty-retail
Grupo de beauty-retail mid-size en la región andina, ~120 tiendas, 8 marcas locales y 3 internacionales. Objetivo: precios dinámicos por monitoreo de competidores y compliance de las condiciones de promoción acordadas con las marcas.
Antes del proyecto: equipo de pricing de 4 personas comparaba precios de competidores a mano cada dos semanas con screenshots. Las condiciones promo de las marcas (por ejemplo, «producto X debe estar a eye-level durante toda la campaña de septiembre») se verificaban con random-audit una vez al mes. Non-compliance: ~23% de tiendas, lo que disparaba multas de marcas y pérdida de promo-rebate.
Qué se hizo:
- Pipeline de web-scraping sobre 12 e-commerce competidores + visual search sobre imágenes para matchear SKU entre sitios con SKU-ids distintos (visualmente el mismo lápiz labial).
- Auditoría visual del merchandising sobre el CCTV de las tiendas: el modelo verifica que en el día y zona correctos esté el producto correcto según planograma. Si no, foto + ticket automático en Odoo para el responsable.
- Dynamic pricing engine en ML, recomendando cambios de precio según posicionamiento vs. competidores y elasticidad por categoría.
Resultados a 6 meses:
- Promo-compliance: del 77% al 94%.
- Brand-rebates recuperados: $480k en el semestre.
- Margin uplift en categorías de pricing: +1.8 p.p.
- ROI: 6.2× sobre la inversión en infraestructura y costo operativo a 18 meses.
No es magia. Es integrar CV (visual matching, planogram check) con analítica retail estándar y proceso operativo. Magia es cuando el vendor te promete los cuatro casos de uso a la vez por $20k. Si te lo prometen, no va a funcionar.
Cómo estimar el ROI antes de empezar
Antes de firmar el SOW con el vendor, haz la cuenta de servilleta. Si los números no cierran aquí, no van a cerrar en producción.
- Costo baseline del problema. Shrink × facturación de la tienda (para loss prevention). OOS-rate × loss-of-sales (para shelf). Wait-time × abandonment-rate (para queue).
- Reducción porcentual alcanzable. Lo realista, de case studies públicos: 15–30% en shrink, 20–40% en OOS, 10–25% en abandonment. Toma la frontera baja.
- TCO del sistema a 3 años. Hardware (cámaras, edge) + licencia software + integración + retraining + operación. Y change management: 15–25% del costo, nunca cero.
- Payback period. Si pasa de 18 meses, revisa scope. Si está entre 6 y 12, va. Si te prometen 3, el vendor te está mintiendo.
Si tu retail está apenas armando la data foundation, no arranques con CV — arranca con una auditoría del Odoo/ERP. Sin tablas limpias de inventario, ventas y promociones, la señal de CV no se convierte en acción.
Cierre: cuándo arrancar y cómo
Computer vision en retail LATAM se volvió una tecnología seria. Pero no es magia y no es un lift-and-shift de EE.UU. Lo que paga: shelf monitoring, loss prevention, queue analytics y smart cart — en ese orden de complejidad. Lo que no: face-recognition demográfico, theft prediction y demos baratos de una cámara.
Si arrancas un proyecto este trimestre, elige un caso de uso con el ROI más claro (para una PYME suele ser shelf monitoring), corre un piloto honesto en 3 tiendas o más con baseline y grupo de control, e intégralo desde el día uno al ERP — si la señal no se convierte en acción, lo que tienes es un grabador caro. Si quieres ver arquitecturas concretas de pilots de computer vision en retail y restaurantes, la página de servicios tiene los casos públicos con números.
Si quieres revisar un proyecto de CV concreto para tu retail, escríbenos: vemos juntos si hay un ROI real o el vendor te está vendiendo un espejismo. Y si primero te conviene auditar tu Odoo/ERP actual, hazlo: muchas veces eso ya muestra dónde el CV suma y dónde primero hay que arreglar la fundación de datos.
Preguntas frecuentes
¿Qué resolución de cámara necesito para shelf monitoring?
Mínimo 1080p; deseable 4K para categorías con SKU pequeños (cosmética, OTC pharma). Lente wide-angle 90–110°.
Si haces retrofit sobre CCTV existente, verifica que no tenga compresión hardcoded en el NVR. La mayoría de los NVR baratos destruyen la calidad hasta niveles inútiles para inference.
¿Cuánto cuesta un piloto honesto?
Un piloto de 8 a 12 semanas en 3 tiendas con un solo caso de uso (shelf monitoring o loss prevention) ronda los $40–120k. Reparto típico: hardware ~30%, software/integración ~50%, operación y baseline measurement ~20%.
Por debajo de $40k no es un piloto: es un videojuego con una cámara.
¿Edge o cloud para inference?
En LATAM, edge para la mayoría de los casos. Cloud (AWS Panorama, GCP Visual Inspection AI, Azure Custom Vision) exige uplink estable, y en tiendas de Coyoacán o San Borja hay blackouts 2 a 6 veces al mes.
Edge sobre Jetson Orin Nano resuelve 90% de los workloads; deja cloud para agregación y retraining batch.
¿Qué regulación pesa en LATAM al desplegar CV?
LGPD (Brasil) y Habeas Data (CO, AR, PE, MX) limitan la captura de datos biométricos. La distinción crítica es entre counting people (agregados, ok sin consentimiento) e identifying people (face recognition, exige consentimiento explícito).
El régimen tributario de importación de hardware (cámaras, GPU) es dolor aparte en AR y BR por aranceles; en MX y CL es más fluido. Antes de desplegar, consulta con un abogado local de protección de datos — un par de horas evita multas posteriores.
¿Cuándo necesito partner integrador y cuándo voy in-house?
In-house solo si ya tienes equipo de datos de 20+ personas, MLops armado y ML-engineers con experiencia retail.
Para una PYME de 50 tiendas o menos, casi siempre va con partner: el break-even del equipo in-house no cierra hasta los 80–100 stores y varios casos de uso en paralelo.
¿Qué está haciendo Walmex con AI y computer vision?
Walmex invierte fuerte en AI y CV; mencionó públicamente el uso de computer vision para inventario y operaciones en varios reportes recientes. Cifras concretas no publica.
Mira la participación de IT-capex en su capex total México 2024–2025: la dirección es clara aunque la línea de partidas siga agregada.
¿Qué stack técnico recomiendan?
Backend y orquestación: Python + FastAPI + Kafka para event streaming en tiempo real. Inference: ONNX Runtime + TensorRT sobre edge NVIDIA. Anotación y training: CVAT + Label Studio + GPU cloud (AWS SageMaker o GCP Vertex).
Integración con retail systems: API-coupling con Odoo, SAP u Oracle Retail — cero hacks de CSV-import del lado servidor. Storage: ClickHouse para series temporales, S3 para imágenes con TTL.
¿Computer vision tiene sentido para una tienda chica o cadena de menos de 20 stores?
Para shelf monitoring y loss prevention rara vez paga por debajo de 20 tiendas: el costo fijo de integración con ERP, retraining y operación de modelo no se amortiza con tan pocas unidades.
Para queue analytics y people-counter hay alternativas más simples (sensores IR, beacons de Bluetooth) que dan 70% del valor por 20% del costo. Empieza por ahí.
¿Cómo elegir entre Trax, Pensa Systems, Focal Systems y similares para shelf monitoring?
Criterios duros: (1) ¿qué retailer LATAM ya corre el vendor en producción, no en piloto?; (2) ¿incluye retraining de modelo en el contrato o se cobra aparte cada 6 meses?; (3) ¿el API se integra nativo con tu ERP o exige middleware custom?
Si el vendor no te puede dar dos referencias verificables en tu país, evita firmar piloto de más de 8 semanas. Pide demo sobre tus propias imágenes de tienda — no sobre el dataset que ellos ya conocen.
¿En qué horizonte temporal esperar payback?
Shelf monitoring: 9 a 14 meses si la cadena tiene 50+ tiendas. Loss prevention: 6 a 12 meses cuando hay response loop operativo armado. Queue analytics: 4 a 8 meses por bajo costo de implementación.
Smart cart y just-walk-out: 30+ meses; solo formato premium o sites con tráfico superior a 800 visitas/día lo justifican.
