In einem bedeutenden Schritt hat Netflix seine übliche Praxis geändert, die Zuschauerzahlen größtenteils geheim zu halten. Der Streaming-Riese veröffentlichte kürzlich einen öffentlichen Datensatz, der Titel umfasst, die von Januar bis Juni 2023 über 100.000 Wiedergestaltungsstunden erreicht haben.
Laut einem Blogbeitrag von Netflix, der den Bericht "Was wir geschaut haben: Ein Netflix-Engagement-Bericht" ankündigt, umfasst der Datensatz mehr als 18.000 Titel und repräsentiert 99 % des gesamten Netflix-Konsums mit fast 100 Milliarden Stunden. Netflix plant, diesen Bericht halbjährlich zu aktualisieren.
Netflix misst die "Wiedergabestunden" anstelle der Anzahl der Zuschauer oder Haushalte, da einige Personen Titel mehrfach ansehen können.
Obwohl Netflix einige Ergebnisse hervorhob, entschied ich mich, tiefer in die Daten einzutauchen, indem ich den Bericht als Excel-Tabelle von ihrem Blog herunterlud. Ich nutzte OpenAI's ChatGPT (mit GPT-4 im Rahmen eines persönlichen ChatGPT Plus-Abonnements), um die Daten zu analysieren.
Kurz gesagt, ChatGPT lieferte eine klare und prägnante Analyse des Datensatzes, hatte jedoch Schwierigkeiten, insbesondere bei der Erstellung von Diagrammen. Meine anfängliche Anfrage bezog sich einfach auf eine Datenanalyse, und ChatGPT reagierte effektiv, indem es die Inhalte genau zusammenfasste.
Darüber hinaus legte ChatGPT "Schlüsselinsights" dar, darunter den bemerkenswerten Punkt, dass die Spalte "Veröffentlichungsdatum" eine erhebliche Anzahl fehlender Werte (13.359) aufweist, was zeitbasierte Analysen beeinträchtigen könnte.
Interessanterweise war der erste Abschnitt der Schlüsselinsights mit "Die 10 meistgesehenen Titel (Jan-Jun 2023)" betitelt, listete jedoch die Titel nicht direkt auf, was mich veranlasste, diese Information separat zu erfragen.
Ich bat auch um Daten zu den am wenigsten gesehenen Titeln, dem Median-Titel, durchschnittlichen Wiedergabestunden und dem Titel, der diesem Durchschnitt am nächsten kam, was ChatGPT zufriedenstellend bereitstellte.
Als ich jedoch nach einem Liniendiagramm mit den monatlichen Wiedergabestunden fragte, hatte ChatGPT Schwierigkeiten. Der Datensatz enthielt keine monatliche Aufschlüsselung der Zuschauerzahlen; es wurden nur die gesamten Wiedergabestunden für jeden Titel über sechs Monate angeboten. Das ursprüngliche Diagramm war nahezu unleserlich und zeigte Daten aus dem Jahr 2010, die den frühesten Veröffentlichungsterminen im Datensatz entsprachen.
Nach meiner Aufforderung zu Korrekturen erhielt ich ein leserlicheres, aber immer noch irreführendes Diagramm. Das Diagramm stellte die kumulierten Wiedergabestunden für neue Titel dar, die jeden Monat veröffentlicht wurden, anstatt die monatlichen Gesamtzahlen zu zeigen. Beispielsweise umfassten die Stunden eines im Januar veröffentlichten Titels die gesamte Wiedergabezeit in der Zeitspanne von Januar bis Juni.
ChatGPT konnte diesen Unterschied nicht selbstständig klären; ohne ausdrückliche Anweisung beschriftete es das Diagramm falsch. Es waren zahlreiche Iterationen erforderlich, bevor ich ein korrekt beschriftetes und nützliches Diagramm erhielt.
Obwohl ChatGPT als hilfreiches Analysetool für gelegentliche Benutzer fungiert, gibt es erheblichen Verbesserungsbedarf hinsichtlich der Zuverlässigkeit und Genauigkeit seiner Datenanalysen.