Em um movimento significativo, a Netflix alterou sua prática usual de manter os dados de audiência em sua maioria privados. A gigante do streaming lançou recentemente um conjunto de dados público detalhando títulos que alcançaram mais de 100.000 horas de visualização entre janeiro e junho de 2023.
Segundo o post no blog da Netflix que anuncia o relatório, intitulado “O Que Assistimos: Um Relatório de Engajamento da Netflix”, o conjunto de dados abrange mais de 18.000 títulos, representando 99% da audiência total da plataforma, com quase 100 bilhões de horas registradas. A Netflix planeja atualizar esse relatório semestralmente.
A Netflix mede as "horas de visualização" em vez do número de espectadores ou domicílios, uma vez que algumas pessoas podem rever títulos várias vezes. Embora a Netflix tenha destacado algumas descobertas, decidi aprofundar a análise dos dados fazendo o download do relatório em formato de planilha Excel em seu blog. Utilize o ChatGPT da OpenAI (com GPT-4 em uma assinatura pessoal do ChatGPT Plus) para analisar as informações.
Em resumo, o ChatGPT forneceu uma análise clara e concisa do conjunto de dados, embora tenha enfrentado dificuldades, especialmente na geração de gráficos. Meu pedido inicial foi simplesmente por uma análise de dados, e o ChatGPT respondeu de forma eficaz, resumindo o conteúdo com precisão.
Além disso, o ChatGPT destacou "insights-chave," incluindo o ponto notável de que a coluna "Data de Lançamento" possui um número significativo de valores ausentes (13.359), o que pode prejudicar análises baseadas no tempo. Curiosamente, enquanto a primeira seção dos insights-chave era rotulada como “Os 10 Títulos Mais Assistidos (Jan-Jun 2023),” não foram listados diretamente, o que me levou a solicitar essas informações separadamente.
Também pedi dados sobre os títulos menos assistidos, o título com a mediana de visualização, horas médias assistidas e o título mais próximo dessa média, todos os quais o ChatGPT forneceu de maneira satisfatória. No entanto, quando pedi um gráfico de linhas representando as horas de visualização mensais, o ChatGPT teve dificuldades. O conjunto de dados não foi dividido por mês; apenas ofereceu horas totais de visualização para cada título ao longo de seis meses. O gráfico inicial era quase ilegível, exibindo datas de 2010, correspondendo às datas de lançamento mais antigas no conjunto de dados.
Após solicitar correções, recebi um gráfico mais legível, mas ainda enganoso. O gráfico representava as horas de visualização acumuladas para novos títulos lançados a cada mês, em vez dos totais mensais de visualização. Por exemplo, as horas assistidas para um título lançado em janeiro incluíam toda a sua visualização no período de janeiro a junho.
O ChatGPT não conseguiu esclarecer essa distinção por conta própria; sem uma direção explícita, rotulou o gráfico incorretamente. Foram necessárias diversas iterações até que eu obtivesse um gráfico devidamente rotulado e útil.
Embora o ChatGPT seja uma ferramenta útil de análise para usuários casuais, ainda há um espaço significativo para melhorias em sua confiabilidade e precisão como analista de dados.