В значительном изменении Netflix пересмотрел свою привычную практику хранения данных о просмотрах в основном в секрете. Недавно стриминг-гигант опубликовал общественный набор данных, в котором представлены названия, собравшие более 100,000 часов просмотров за период с января по июнь 2023 года.
Согласно сообщению на блоге Netflix, в котором анонсируется отчет под названием «Что мы смотрели: отчет о вовлеченности Netflix», в набор данных входит более 18,000 названий, что составляет 99% общего объема просмотров Netflix, с почти 100 миллиардами часов. Netflix планирует обновлять этот отчет дважды в год.
Компания измеряет «часы просмотров», а не количество зрителей или домохозяйств, так как некоторые пользователи могут пересматривать контент несколько раз.
Хотя Netflix выделил некоторые результаты, я решил глубже проанализировать данные и скачал отчет в формате Excel с их блога. Для анализа я использовал ChatGPT от OpenAI (на подписке ChatGPT Plus с GPT-4).
В целом, ChatGPT предоставил краткий и понятный анализ набора данных, хотя и столкнулся с трудностями, особенно при создании графиков. Мой первоначальный запрос заключался просто в анализе данных, и ChatGPT эффективно ответил, точно обобщив содержимое.
Кроме того, ChatGPT выделил «ключевые insights», включая примечательный факт, что в столбце «Дата выпуска» значительное количество значений отсутствует (13,359), что может затруднить временной анализ.
Интересно, что в первом разделе ключевых insights, озаглавленном «10 самых просматриваемых названий (январь-июнь 2023)», названия не были представлены напрямую, что побудило меня запросить эту информацию отдельно.
Я также запросил данные о наименее просматриваемых названиях, медианном просмотренном названии, среднем времени просмотра и названии, наиболее близком к этому среднему, все из которых ChatGPT предоставил удовлетворительно.
Однако, когда я запросил линейный график, отображающий месячные часы просмотров, ChatGPT испытывал трудности. Набор данных не разбивал просмотры по месяцам; вместо этого он предлагал общее количество часов просмотров для каждого названия за шесть месяцев. Первоначальный график оказался почти неразборчивым, показывая даты с 2010 года, что соответствовало самым ранним датам выпуска в наборе данных.
После дополнительных запросов на исправления я получил более читаемый, но все еще вводящий в заблуждение график. Этот график показывал общее накопленное количество часов просмотров для новых названий, выпущенных каждый месяц, а не месячные итоги просмотров. Например, часы просмотров для названия, выпущенного в январе, включали общее количество просмотров за период с января по июнь.
ChatGPT не уточнил это различие самостоятельно; без явных указаний он неверно обозначил график. Потребовалось множество итераций, прежде чем я получил правильно помеченный и полезный график.
Хотя ChatGPT является полезным инструментом анализа для непрофессиональных пользователей, остается значительное поле для улучшения его надежности и точности в качестве аналитика данных.