Inicio / Blog / Engineering / Churn prediction modelo LATAM 2026
EngineeringLATAM

Churn prediction modelo para LATAM: arquitectura de modelos de deserción (2026)

XGBoost o survival analysis, identity resolution sobre CPF, RUC y CURP, retention playbook por segmento.
Lo que separa los modelos que pagan de los que decoran un dashboard.

Sergei Filatov
Sergei FilatovFounder · data-metrics.pro · 26 may 2026
◷ 16 min de lectura

Resumen en 60 segundos

Si tu churn prediction modelo muestra un AUC de 0,92 pero el CFO no ve ahorro, la modelo no está conectada a la acción. Es la patología más frecuente de los proyectos de retention en LATAM, y la razón por la que 10 de cada 14 pilotos que audité en 2024–2025 no devolvieron un peso.

  • Telecom LATAM: monthly churn de 2,5–4,5% (27–43% anual). Banca retail: 8–14% anual. SaaS B2C: 5–8% mensual.
  • El churn prediction modelo paga su costo SOLO cuando está enchufado a un retention playbook. Modelo sin acciones segmentadas = ejercicio académico.
  • Stack base 2026: LightGBM o XGBoost para clasificación + survival analysis (Cox PH, DeepSurv, XGBSE) para time-to-event. Logistic regression sigue vivo como baseline.
  • El class imbalance de LATAM (otto del 3–8%) no se trata con SMOTE: se ajusta con scale_pos_weight y threshold tuning sobre la métrica de negocio.
  • Los errores que más cuestan: data leakage por features post-churn, ausencia de A/B sobre las intervenciones, identity confusion entre CPF, RUC y CURP, survivorship bias en las extracciones.
  • Production stack: feature store (Feast, Tecton), orquestación (Airflow, Dagster), serving (FastAPI, Seldon), monitoreo de drift (Evidently, WhyLabs).

Por qué el churn en LATAM es un caso aparte

En 2024 descargué los behavioral logs de un fintech en Bogotá (NDA, nombre reservado hasta 2028). Una binary churn clásica devolvió AUC 0,89. Marketing le creyó, lanzó campaña y al trimestre siguiente sumó +0,4 puntos de retention. Estadísticamente, ruido.

El problema no era la modelo. Era que el 60% de la “fuga” en la extracción correspondía a usuarios con el mismo CPF pero distinto e-mail y device_id. No se iban: reabrían cuenta para cobrar el welcome bonus. La modelo se entrenó para predecir un fenómeno que no existía.

Ese es el retrato del churn en LATAM. La región mete tres desafíos que los equipos de North America no enfrentan:

  1. Identity fragmentation. Un humano real equivale a 1,3–2,1 identidades digitales, según mis auditorías. CPF, RUC y CURP no siempre están cargados bien, el e-mail cambia, los teléfonos se reasignan.
  2. Cash on delivery y financial footprint incompleto. Hasta el 35% de las transacciones de e-commerce en México y Colombia se pagan en efectivo contra entrega. Sin fecha de débito, sin recurring billing, no hay momento contractual del que colgar la modelo.
  3. WhatsApp-first behavior. Atención, marketing y ventas viven en WhatsApp. Si tus engagement features se basan en open rate de e-mail y web sessions, estás viendo un 20% del engagement real.
!
Compliance no es un sello al final. LGPD en Brasil, Habeas Data en Colombia y LFPDPPP en México exigen explicit consent para behavioral profiling. La ANPD aplica multas con tope del 2% del revenue anual hasta R$ 50 M. Tu churn prediction modelo se construye solo con consented data, y el feature engineering tiene que respetarlo desde el momento en que sourceas el evento.

El detalle estructural: la realidad operativa colombianala mexicana y la argentina son lo suficientemente distintas como para que cada una arme su propio feature set. Una modelo única para LATAM rara vez gana contra modelos por país con shared backbone.

Qué cambió entre 2023 y 2026

Tres movimientos cambiaron la práctica.

Survival analysis salió de la academia. Hasta 2022, el 90% de los equipos LATAM usaban binary classification (“se va en 30 días, sí o no”). Con DeepSurv, XGBoost Survival Embeddings (XGBSE) y la maduración de lifelines, la industria pasó a modelos time-to-event. La diferencia no es estética: predecir cuándo se va se convierte directamente en expected CLV y en priorización de intervenciones.

Los feature stores dejaron de ser un punto de roadmap. Feast (open source) y Tecton (managed) ya están en producción en operadores y bancos grandes de LATAM. La razón es contundente: la desincronización de features entre training y serving causaba entre el 30% y el 40% de los failures de negocio de modelos de churn. El feature store lo resuelve de raíz: el training y el serving leen del mismo lugar con point-in-time correctness.

LLM-driven feature engineering. Los modelos grandes (Claude 4.X, GPT-5) se usan como generadores de features sobre unstructured data: transcripciones de calls de soporte, texto de WhatsApp, reseñas en App Store. En mis auditorías, sumar entre 5 y 8 LLM-derived features (sentiment, intent, frustration score) aporta +0,02–0,05 de AUC sobre un baseline de gradient boosting en data LATAM. El costo del inference cayó casi 10× desde 2024.

Los movimientos regulatorios que ya impactan a churn prediction en 2026:

  • ANPD Brasil aprieta la interpretación de “legitimate interest” para behavioral profiling. Antes se usaba sin opt-in. Ahora el regulador pide explicit consent en cada vez más casos.
  • IFT México amplía las reglas de data portability del telecom: el operador debe entregar al usuario, a pedido, la data relevante para churn.
  • SIC Colombia precisa las reglas de automated decision-making, que pegan directo en la segmentación de campañas de retention.

Si en 2026 dejas el compliance para el deployment, llegas tarde. Privacy by design entra en el event sourcing y en la identity resolution, no en el playbook de marketing.

Cómo construir el churn prediction modelo

El pipeline base se divide en seis capas. Cada una tiene sus elecciones de tooling y sus pitfalls. La capa que más proyectos rompe sigue siendo la primera.

#1. Identity resolution

Antes de hablar de features, hay que armar la entidad “persona real”. En LATAM no es trivial.

  • Probabilistic matching sobre la combinación CPF/RUC/CURP + teléfono + e-mail + device_id.
  • Threshold típico: 0,85 de cosine similarity sobre embeddings de los atributos.
  • Tooling: Zingg (open source, Apache 2.0), Senzing (commercial) o pipeline propio con dedupe.io.
  • Pitfall: el aggressive matching pega personas distintas en una sola entidad. Mejor dejar el duplicado con low_confidence_match=True que perder precision en la campaña de retention.

#2. Event sourcing y feature engineering

La behavioral data tiene que ser time-indexed e immutable. El estándar es event log en ClickHouse, BigQuery o Snowflake. Encima va el feature store.

Set mínimo de features para retail, telecom y banca:

CategoríaEjemplosPara qué sirve
RFMrecency_days, frequency_30d, monetary_90dFirma behavioral básica
Velocityusage_delta_7d_vs_28d, sessions_trend_slopeDetecta el enfriamiento
Supporttickets_30d, sentiment_avg_90d, escalations_90dSeñal de frustración
Paymentfailed_payments_60d, days_to_payment_avgFricción financiera
Engagementnps_last_30d, app_open_streak, whatsapp_msgs_receivedVitalidad
Networkreferrals_made_180d, referrals_active_180dEmbeddedness

Para LATAM hay una feature crítica que no figura en la mayoría de los tutoriales western: whatsapp_msgs_received. En mis auditorías aparece muchas veces en el top 3 por SHAP importance. Se obtiene vía WhatsApp Business API webhooks, con el consentimiento explícito del usuario (otra vez LGPD y Habeas Data).

#3. Target definition

Acá se rompe la mitad de los proyectos. ¿Qué es “churn”?

  • Hard churn: el usuario rescindió contrato. Señal limpia pero rara en B2C SaaS.
  • Soft churn: sin actividad durante N días. N depende de la vertical: streaming N = 14, SaaS N = 60, retail N = 90.
  • Revenue churn: ARR cayó más del X% (para B2B).
  • Time-to-event: hasta qué fecha sobrevive.

En telecom LATAM domina la predicción de hard churn a 30 días del fin de contrato. En banca, soft churn (90 días sin transacciones). En B2B SaaS, revenue churn. Elegir el target es una decisión de negocio, no de data science. Si el data scientist lo elige solo, el proyecto fracasa: el target no coincide con la métrica por la que después le piden cuentas.

#4. Model selection

No existe “la mejor modelo”. Existe el match entre volumen de datos, requisito de interpretability y constraints de producción.

ModeloCuándo elegirlaProsContras
Logistic regression< 50 k observaciones, compliance-ready explainabilityTransparente, rápidaNo captura no linealidades
Random Forest50 k–500 k, latency no críticaRobusta a outliersPesada en memoria
XGBoost / LightGBM100 k+, prioridad accuracySOTA en tabularHyperparameter-heavy
Survival (Cox PH, DeepSurv, XGBSE)Necesitas expected time-to-eventRespuesta directa para CLVEvaluation más complejo
Neural nets (TabNet, FT-Transformer)1 M+ observacionesSOTA en data masivaCaja negra, GPU

Mi default para mid-market LATAM (100 k a 2 M usuarios) es LightGBM con survival objective + SHAP post hoc. Cubre el 80% de los casos. XGBSE entra cuando hay que cortar CLV por segmento con granularidad.

#5. Imbalance handling

El otto suele estar entre 3% y 8%: clasificación desbalanceada. Lo que NO funciona: SMOTE sobre tabular data devuelve, en la mayoría de los casos, AUC peor que un buen scale_pos_weight, sobre todo con datos LATAM cargados de categorical features. Random undersampling tira información a la basura.

Lo que sí funciona: scale_pos_weight = neg/pos en XGBoost, class_weight='balanced' en sklearn, threshold tuning sobre la métrica de negocio (precision@k, lift@decile) y focal loss para los casos difíciles.

#6. Evaluation y monitoring

AUC no es métrica de negocio. Usar AUC más:

  • Lift en el top decil (lift@10%): cuántas veces más capturas a un churner en el top 10% versus random.
  • Precision@K: qué fracción del top K realmente se va.
  • Expected savings: cuánto ahorra la campaña de retention si targetea por modelo.

Production monitoring: Population Stability Index (PSI) sobre la distribución de features, alerta de performance decay (AUC cae más de 0,03 en 30 días = alerta) y herramientas como Evidently AI, WhyLabs o Arize. Sin esto, la modelo entra silenciosamente en drift y nadie se entera hasta que el revenue lo grita.

Cuándo funciona y cuándo no

La sección más importante. De las 14 auditorías que hice entre 2024 y 2025, sobrevivieron cuatro. Esto es lo que las separa del resto.

#1. Negocio contractual con concluding event claro

Telecom, SaaS, seguros, fitness. Conocés el momento de verdad (renewal date) y la intervención tiene sentido en una ventana acotada. Un AUC entre 0,82 y 0,88 se traduce en una reducción del net churn de 15% a 25% con la campaña correcta. La condición sine qua non: la modelo está enganchada a triggers de CRM y al contact center.

#2. Transactional con frecuencia predecible

Food delivery, ride-hailing, subscription e-commerce. No hay “contract end”. Funciona survival analysis con prediction continua: cada día hay un hazard rate. La intervención se dispara cuando el hazard cruza un threshold. Aquí lo crítico es el retraining cadence: el comportamiento cambia de promo a promo.

#3. Discrete-purchase retail no es terreno para churn binaria

Fashion, electrónica, home goods. Compra cada seis meses: predecir churn a 30 días no tiene sentido físico. Reformular la pregunta: no “se va o no”, sino “cuándo vuelve”. En la literatura se llama pseudo-churn problem. Lo que funciona es CLV-decay y segmentación basada en LTV, no binary churn.

#4. Cash-heavy LATAM: primero identidad, después modelo

Vi un proyecto en Lima donde el 78% de las transacciones eran cash on delivery sin identificar al comprador. Cualquier churn model ahí es fantasía. Primero un identity acquisition program (loyalty card, app installs), después churn prediction. La cronología importa.

#5. Menos de 10 k usuarios activos: overfitting gana

Una logística regression con 5 features te va a dar el mismo business outcome que un XGBoost con 200. Vi un caso en Asunción: el equipo de ML armó XGBoost sobre 3 200 usuarios, AUC 0,94 en train, 0,61 en holdout. Overfit clásico.

i
Regla de pulgar: 10 000 usuarios activos y 200 churn events en los últimos 6 meses es el piso mínimo. Por debajo, rules-based segmentation con dos o tres reglas duras devuelve más ROI que cualquier modelo de gradient boosting.

5 errores típicos que matan el ROI

#1. Data leakage por features post-churn

En el training set entran señales que físicamente sólo existen DESPUÉS del evento de churn: last_login en el momento del scoring. La modelo “aprende” a predecir el pasado. Se cura con point-in-time correct feature snapshots: Feast con time-travel o snapshotting manual en un Airflow DAG.

#2. Survivorship bias en las extracciones históricas

El CRM tiene a los activos y a los que se fueron, pero no a los “borrados” por duplicado o por cleanup mal hecho. Si en el último año eliminaste el 5% de la base, la modelo no ve a esos usuarios y subestima el riesgo en su segmento. Solución: audit trail sobre el event log, no snapshot actual del CRM.

#3. Modelo sin retention playbook

El error más caro de LATAM. La modelo está, el scoring funciona, el dashboard gira, pero nadie sabe qué hacer con el top 10% de high-risk. Marketing manda 20% de descuento a todos, el contact center llama sin script, producto no pushea upgrade. Sin retention playbook (segmentation × channel × offer matrix) la modelo es un academic exercise. El 70% del ROI viene de la calidad de la intervención, no del accuracy de la modelo.

#4. Un único threshold para todos los segmentos

El cut-off de 0,5 sobre la probability es el default que más plata pierde. En el VIP el threshold debería ser 0,3 (mejor intervenir preventivamente, errar es caro), en low-value sube a 0,7 (es más barato dejarlo ir). La solución es cost-sensitive learning o per-segment threshold optimization.

#5. Cero A/B sobre las intervenciones

A los equipos les gusta creer que la campaña funcionó “porque el churn bajó”. Sin A/B es correlation, no causation. Puede que la campaña haya sido contraproducente (anchor effect del descuento) y que el churn haya caído por estacionalidad. Cada campaña tiene que correr con un holdout group del 10% al 15% sin intervención. Eso es incremental measurement, y sin él no sabés si la modelo funciona.

Si después de doce meses tu modelo no tiene un experimento controlado contra holdout, el AUC que reportas es decoración. No es retention, es teatro.

Caso anónimo: telecom LATAM, 8 M abonados

Sin nombre. Operador móvil grande de un país andino. 8 M abonados activos, monthly churn de 3,6% antes del proyecto.

Situación. El equipo interno de ML construyó un XGBoost en 2022. AUC 0,86 en producción. Marketing trabajaba sobre el top 10% de riesgo: SMS con descuento. Tras 18 meses de operación, el net churn había caído 0,3 p.p. (de 3,6% a 3,3%). El negocio lo etiquetó como “fracaso” y se preparaba para apagarlo.

Lo que apareció en la auditoría.

  1. La identity resolution no funcionaba: el 14% de los “churn events” eran duplicados de CPF. El usuario no se iba, cambiaba de número dentro de sus propios contratos. La modelo se entrenaba con ruido.
  2. El targeting del top 10% contenía un 30% de imposibles (payment defaults, ningún descuento los retenía) y un 20% de leales con dip temporal. Effective targeting real: 50%.
  3. Discount-only intervention. No había differentiated playbook por segmento.

Lo que hicimos.

  1. Reconstruimos la identity layer: device_id matching + dedupe basado en Zingg. Se consolidó el 89% de los duplicados.
  2. Migramos de binary classification a survival LightGBM. Eso devolvió expected_days_until_churn, una feature nueva para priorización.
  3. Armamos una matriz de intervención por 4 segmentos: high-value × low-tenure → call personal + upgrade offer; high-value × high-tenure → loyalty rewards; low-value × payment-friction → plan en cuotas; low-value × dormant → minimal touch.
  4. Lanzamos un holdout group del 10% y A/B testeamos cada segmento.

Resultado a 12 meses. Net churn cayó de 3,3% a 2,4% (−27%). Incremental revenue saved firmado por el CFO: USD 4,2 M anuales. Costo de intervención: USD 0,9 M. ROI 4,7×. La lección clave: la modelo sola no movía la métrica. La movía la combinación identity resolution + segmentation playbook + A/B measurement. La modelo es condición necesaria, no suficiente.

El paralelismo operativo lo cubrimos en otra pillar de la casa: el caso Estée Lauder de pricing y retention usa exactamente la misma lógica de targeting matrix.

Checklist y próximo paso

Si estás construyendo o auditando un churn prediction modelo, hay 12 puntos que conviene chequear antes de defender el proyecto frente al board: Audita tu Churn Model. Adentro hay un Jupyter notebook con validaciones de data leakage, identity drift, survivor bias y threshold optimization. Es gratis, llega por e-mail.

Si querés, lo recorro con vos: auditoría de 30 minutos. Reviso cinco puntos: identity layer, target definition, feature pipeline, evaluation framework, intervention playbook. No vendo nada en esa llamada.

FAQ

¿Cuál es el volumen mínimo de datos para construir un churn prediction modelo?

El piso práctico es 10 000 usuarios activos y al menos 6 meses de event logs con no menos de 200 churn events. Por debajo, el overfitting domina y conviene usar rules-based segmentation con dos o tres reglas duras.

¿Cuánto cuesta lanzar churn prediction en telecom LATAM?

Proyecto completo (identity + feature store + modelo + playbook + monitoring): entre USD 80 000 y USD 250 000 a lo largo de 6 a 9 meses de trabajo de equipo. Solo la modelo sin identity layer: USD 25 000 a 60 000, pero el ROI será marginal — igual que el caso del operador andino arriba.

¿Qué AUC se considera production-ready?

AUC por encima de 0,75 sobre out-of-time validation es el mínimo para considerar el deployment. 0,85+ es una modelo fuerte. 0,95+ es señal de revisar data leakage: en segmentación LATAM real no se ve tanta separabilidad.

¿XGBoost, LightGBM o CatBoost?

LightGBM es mi default en proyectos LATAM con tabular data. Entrena más rápido y soporta nativamente categorical features, que en LATAM abundan (device_brand, payment_method, plan_code). CatBoost si los datos son muy categóricos. XGBoost cuando hay codebase ya armado o necesitás compatibilidad con XGBSE para survival.

¿Cómo impactan LGPD y Habeas Data en la modelo de churn?

Explicit consent obligatorio para behavioral profiling. El privacy notice tiene que mencionar el uso de data para retention models y el usuario debe tener opt-out. ANPD Brasil aplica multas con tope del 2% del revenue anual hasta R$ 50 M. SIC Colombia, multas hasta 2 000 SMMLV.

¿Survival analysis o binary classification?

Survival si tenés un negocio continuous-time (telecom, SaaS subscription, fitness). Binary para negocios contractuales con renewal date fija. Nunca uses binary para food delivery o ride-hailing: perdés información de momentum y el timing de la intervención se borronea.

¿Cada cuánto hay que reentrenar la modelo?

En telecom LATAM, mensual: la market velocity es alta por promos de la competencia y por regulación. En banca, trimestral. En B2B SaaS, semestral. Trigger automático para reentrenar: PSI mayor a 0,2 en las top 5 features o caída de AUC mayor a 0,03 en out-of-time holdout.

¿Vale la pena un feature store para una PYME?

Por debajo de 50 000 usuarios y una sola modelo en producción: probablemente no. Las features se pueden materializar en BigQuery o Snowflake con consultas point-in-time. Arriba de tres modelos compartiendo features, o con compliance que exige reproducibility, Feast paga su curva de aprendizaje en menos de 6 meses.

¿Qué tooling de monitoring usar en producción?

Evidently AI es buen punto de entrada gratis para PSI y data quality. WhyLabs y Arize son opciones managed más completas, con alerting integrado. Lo crítico no es la herramienta: es definir cuál es la regla de “la modelo falló” y quién atiende la alerta, antes de que pase.