Uno de los modelos de suscripción más exitosos en este momento en la prensa mundial es el del New York Times, analizado y seguido por muchos otros como ejemplo de que un medio puede financiarse en gran parte por el pago por contenidos. Pero, ¿qué hace en realidad que los lectores se suscriban a The NYT? ¿Por qué están dispuestos a pagar los lectores? ¿Cómo se construye técnicamente el modelo que permite saberlo?

El director de Analítica del periódico neoyorquino, Daniel Mill, ha desvelado en gran parte cómo trabajan internamente para medir lo que hace que los lectores se suscriban a The New York Times. Según Mill, entender lo que impulsa a alguien a comprar una suscripción de noticias no es nada simple. Cada suscriptor potencial está expuesto a diferentes noticias, anuncios y mensajes tanto en el propio periódico como fuera de él. “Separar estas influencias es una tarea abrumadora, pero es necesario comprender cómo funciona para construir un negocio de suscripción efectivo. Si vamos a gastar dinero en marketing y medios de manera eficiente, necesitamos cuantificar y entender cómo cada estímulo, tanto dentro como fuera del sitio, influye y contribuye a las suscripciones”.

En el artículo que publica Mill, en el que desvela desde un punto de vista técnico cómo trabajan, incide en que “existe una industria completa para abordar este mismo problema, con diferentes soluciones desde Market Mix Models (MMM), hasta modelos de atribución de seguimiento de usuarios o encuestas. Si bien todas estas metodologías, indica Mills, ofrecen la capacidad de dar claves, cada una tiene un gran coste en términos de tiempo y dinero.

El New York Times, para evitar este coste en tiempo y dinero, ha apostado por construir su propia plataforma, ya que posee los datos que necesita de manera interna. 

“Cuando se trabaja con un proveedor, se puede gastar una cantidad considerable de tiempo y recursos en pasar los datos, validarlos, construir un modelo y, finalmente, volver a presentar el trabajo. Debido a los pasos requeridos, un modelo típico puede tardar semanas en llegar a buen término. Pero, ¿y si tenemos que reaccionar a las respuestas del mercado de manera más inmediata? Para resolver este problema, decidimos construir una infraestructura de Market Mix Model internamente”, revela Mills.

(En términos estadísticos, un MMM es un proceso para desemparejar los eventos de conversión de suscriptores. Por ejemplo, si quisiéramos determinar la efectividad de una campaña de televisión en las suscripciones, mediríamos la correlación histórica de la televisión con las suscripciones después de mostrar los efectos de las ventas, la estacionalidad y otras variables del marketing. “En pocas palabras, para comprender cómo cualquier canal está impulsando las suscripciones, necesitamos construir y cuantificar todos los controladores de forma integral).

Gestión de datos

Según Mill, la creación del MMM en casa comienza con una ventaja inmediata: la mayoría de los datos necesarios para crear uno ya se están reportando internamente en algún lugar. El conjunto de datos más importante, “nuestro seguimiento interno de eventos de comportamientos en el sitio (por ejemplo, las visitas de página de NYT), ya existe en nuestra Google Cloud Platform (GCP”).

Si bien este conjunto de datos puede ayudar a comprender qué historias pueden afectar la suscripción, “es fundamental comprender qué influencias externas conducen a que un visitante llegue a nuestro sitio”. 

Casi todos estos datos provienen de socios externos, como Facebook y Google, pero generalmente los utilizan analistas y especialistas en marketing en una UI (interfaz del usuario) aislada.

“Descubrimos que la accesibilidad de los datos era un obstáculo, por lo que nuestro primer paso fue crear un API de cada fuente de datos externa para convertirlas en un almacenamiento en la nube. Estas fuentes de datos incluyen, pero no se limitan a:

  • Clicks e impresiones
  • Display fuera del sitio y en el sitio
  • Impresiones pagadas y propias en Facebook
  • Impresiones en Twitter, Engagement, Retweets, Respuestas, Me gusta
  • Descargas de aplicaciones
  • Fechas de venta
  • Variables económicas

Después de tener los datos, es necesario incluirlos en un modelo estadístico

“Tener todos estos datos en un almacén central de GCP de forma consistente nos da los datos que necesitamos, pero en diferentes formatos que no se pueden incluir fácilmente en un modelo estadístico. Para eso, confiamos en Python no solo para limpiar y formatear los datos, sino también para ejecutar regresiones complejas a partir de las cuales podemos extraer información”.

“Cuando se preparan para construir un modelo, varios proveedores de datos generalmente preguntan qué datos necesitamos y casi siempre los necesitamos todos. Cuando un modelo encuentra una variable de entrada significativa (o insignificante), necesitamos desglosarla más y analizar qué factor subyacente está impulsando el resultado; y para hacer esto necesitamos todos los metadatos circundantes. Siempre existe la posibilidad de procesar los datos de forma incorrecta o de que falten por completo, por lo que es necesario validarlos”.

Validación de datos

Según explica Mill en su artículo en Times Open (espacio en el que el periódico cuenta cómo trabaja en cualquier ámbito). “cualquier modelo econométrico es tan fuerte como los insumos recopilados: “Entrada de basura, salida de basura”, como dice el adagio.

El enfoque común en la industria es extraer todas las fuentes de datos, manipular y visualizar los datos y, finalmente, presentarlos a los interesados ​​y expertos para garantizar la calidad de los insumos. Dado que el envío de estos datos a agencias externas puede llevar mucho tiempo a todas las partes involucradas, se pueden eliminar muchas fricciones manteniendo el proceso interno. 

Para hacer esto, “introdujimos una infraestructura de informes basada en la nube conectada directamente a nuestro almacén de BigQuery. Esto nos permite tener las entradas que utilizamos para modelar transformadas y canalizadas directamente a nuestros analistas, quienes pueden monitorear la precisión de los datos tan pronto como se ingieren de las API”.

Modelado de datos

A menudo, en ciencia de datos o econometría, la mayor parte del tiempo dedicado a construir un modelo puede estar en la preparación antes de que se lleve a cabo cualquier modelado real. “Hemos logrado reducir el tiempo dedicado al procesamiento de datos utilizando la biblioteca Pandas Python. Pandas tiene un envoltorio previamente escrito para extraer datos de GCP utilizando BigQuery, que permite la toma de datos desde BigQuery a un DataFrame. (Pandas DataFrame es una herramienta poderosa de código abierto con una estructura similar a Excel que nos permite manipular datos de manera eficiente). Podemos migrar datos hacia o desde BigQuery en tan solo tres líneas de código”.

Con un acceso simple a BigQuery, indica Mill, “usamos Python para recorrer múltiples consultas para tomar todos los datos necesarios de tablas separadas en una ubicación. Con los datos en un solo lugar, podemos transformarlos según sea necesario con Pandas. Hay una serie de manipulaciones necesarias necesarias para ejecutar un modelo de mezcla de mercado, como:

  • Compartiendo todos los datos en intervalos de tiempo consistentes
  • Creación de índices estacionales.
  • Creando transformaciones de adstock para medir efectos latentes.
  • Datos de suavizado

La mayoría de estas transformaciones ya vienen con funciones preescritas en la biblioteca de pandas para que las manipulaciones sean lo menos complicadas posible ( pivot_tablepara agrupar rápidamente los datos, rolling_tablepara suavizar los datos). “Para cualquier transformación personalizada, como los anuncios, podemos escribir nuestra propia lógica para automatizar el proceso. Si bien todo esto es técnicamente posible en SQL, Python y Pandas simplifican el proceso con una fracción del código. Cuando pensamos en la automatización y en los cambios de modelo rápidos, queremos un código tan pequeño para depurar lo más humanamente posible, y la simple conectividad entre Pandas y BigQuery nos permite elegir qué herramienta puede manipular los datos de manera más eficiente”.

“Siguiendo nuestro proceso de transformación de datos, apunta el artículo del director de Analítica, estamos listos para construir nuestro modelo. Existen múltiples bibliotecas de Python bien adaptadas para el modelado estadístico, pero para un MMM, preferimos los modelos de estadísticas, ya que son más adecuados para la interpretación econométrica tradicional de nuestras variables de entrada”.

Reducir la fricción de un proceso plagado de transferencias de datos es esencial para obtener respuestas rápidamente. Eliminar la dependencia de los proveedores en el modelado alivia la necesidad de enviar datos masivos a agencias externas. El traslado de la información y la propiedad de los datos de las IU individuales a un repositorio central democratiza las entradas necesarias del modelo. Y, por último, un flujo de trabajo programático para automatizar ETL (Extraer, Transformar, Cargar), transformaciones de datos y modelado ahorra tiempo a los analistas de datos en la producción de las perspectivas modeladas necesarias.

“Poseer toda esta información también nos da una vista completa de todo el procesamiento de datos hasta resultados modelados. Tener modelos internos nos permite tener una visión total de las posibles brechas de datos, los supuestos que se incluyen en el modelo y la transparencia total de los resultados modelados para validar y mantener un nivel de integridad estadística”, concluye Mill.

Más información:

Deja un comentario