En un movimiento significativo, Netflix ha cambiado su práctica habitual de mantener en privado los datos de audiencia. Recientemente, el gigante del streaming publicó un conjunto de datos públicos que detalla los títulos con más de 100,000 horas de visualización entre enero y junio de 2023.
Según el comunicado de Netflix titulado “Lo que vimos: Un informe de engagement de Netflix,” el conjunto de datos abarca más de 18,000 títulos, representando el 99% de la visualización total en la plataforma, con casi 100 mil millones de horas registradas. Netflix planea actualizar este informe de manera semestral.
La compañía mide las "horas de visualización" en lugar de la cantidad de espectadores o hogares, ya que algunas personas pueden ver los títulos varias veces. Aunque Netflix destacó algunos hallazgos, decidí profundizar en los datos descargando el informe como una hoja de cálculo de Excel desde su blog. Utilicé ChatGPT de OpenAI (con GPT-4 a través de una suscripción personal de ChatGPT Plus) para analizar los datos.
En resumen, ChatGPT ofreció un análisis conciso y claro del conjunto de datos, aunque enfrentó desafíos, especialmente al generar gráficos. Mi solicitud inicial fue simplemente un análisis de datos, y ChatGPT respondió de manera efectiva, resumiendo el contenido correctamente.
Además, ChatGPT destacó “perspectivas clave,” incluyendo el notable hecho de que la columna “Fecha de lanzamiento” tiene un número significativo de valores faltantes (13,359), lo que podría obstaculizar los análisis temporales.
Curiosamente, aunque la primera sección de perspectivas clave se titulaba “Los 10 Títulos Más Vistos (Ene-Jun 2023),” no enumeró los títulos directamente, lo que me llevó a solicitar esta información por separado. También pedí datos sobre los títulos menos vistos, el título mediano visto, las horas promedio de visualización y el título más cercano a ese promedio, todos los cuales ChatGPT proporcionó satisfactoriamente.
Sin embargo, cuando pedí un gráfico de líneas que representara las horas de visualización mensuales, ChatGPT tuvo dificultades. El conjunto de datos no desglosaba la visualización por mes; solo ofrecía las horas de visualización totales para cada título durante seis meses. El gráfico inicial fue casi ilegible, mostrando fechas de 2010, que correspondían a las fechas de lanzamiento más antiguas en el conjunto.
Tras solicitar correcciones, recibí un gráfico más legible, pero aún engañoso. El gráfico representaba las horas de visualización acumulativas por nuevos títulos lanzados cada mes en lugar de los totales mensuales de visualización. Por ejemplo, las horas vistas de un título lanzado en enero incluían su total de visualización durante el período de enero a junio.
ChatGPT no aclaró esta distinción por sí solo; sin dirección explícita, etiquetó el gráfico incorrectamente. Se requirieron numerosas iteraciones antes de que obtuviera un gráfico correctamente etiquetado y útil.
Si bien ChatGPT es una herramienta de análisis útil para usuarios ocasionales, todavía queda un gran margen de mejora en su fiabilidad y exactitud como analista de datos.