Netflixは、視聴データを通常のように秘匿するのではなく、重要な一歩を踏み出しました。最近、2023年1月から6月までの視聴時間が10万時間を超えたタイトルを詳細に示す公のデータセットを発表しました。
このデータセットは、Netflixのブログで発表された「私たちが観たもの:Netflixエンゲージメントレポート」というタイトルの報告書に基づいています。このデータセットは18,000以上のタイトルを網羅しており、Netflix全体の視聴の99%を表しています。視聴時間はほぼ1000億時間に達しており、Netflixはこのレポートを年2回更新する予定です。
Netflixは「視聴時間」を視聴者数や世帯数ではなく測定しています。これは、同じタイトルを何度も再視聴する人がいるためです。Netflixが挙げた一部の発見に加え、私はブログからExcelスプレッドシートとしてレポートをダウンロードし、データをより深く分析しました。分析にはOpenAIのChatGPT(GPT-4を利用したChatGPT Plusの個人利用版)を使用しました。
要約すると、ChatGPTはデータセットの簡潔で明確な分析を提供しましたが、特にチャート作成時には課題に直面しました。私の初期のリクエストは単にデータ分析だったため、ChatGPTは効果的に内容を要約して応じました。さらに、ChatGPTは「主要な洞察」として、「リリース日」列に多くの欠損値(13,359)が存在することが、時間ベースの分析に影響を与える可能性があると指摘しました。
興味深いことに、主要な洞察の最初のセクションは「2023年1月〜6月の最も視聴されたタイトルトップ10」と名付けられていましたが、実際のタイトルは掲載されず、私は別にこの情報を求める必要がありました。また、最も視聴されなかったタイトル、中央値の視聴タイトル、平均視聴時間、およびその平均に最も近いタイトルについてもデータをリクエストし、ChatGPTはこれらに満足のいく応答を提供しました。
しかし、月ごとの視聴時間を示す折れ線グラフの作成を依頼したところ、ChatGPTは苦戦しました。このデータセットでは視聴が月ごとに分かれておらず、各タイトルの6か月間の総視聴時間のみが提供されていました。初期のグラフはほぼ判読不可能で、データセット中の最初のリリース日の対応する2010年の日付が表示されていました。
修正を促すと、もう少し読みやすいがそれでも誤解を招くグラフが得られました。このチャートは、新しいタイトルがリリースされた毎月の総累積視聴時間を示し、月ごとの視聴総時間ではありませんでした。例えば、1月にリリースされたタイトルの視聴時間は、1月から6月までの合計視聴時間を含んでいました。
ChatGPTはこの違いを自ら明確に説明することができず、明示的な指示がなければ誤ったラベルが付けられました。適切にラベル付けされた有用なチャートを得るまでに多くの修正が必要でした。
ChatGPTはカジュアルなユーザーにとって分析ツールとして役立つ一方で、データアナリストとしての信頼性と正確性の向上の余地が大いに残されています。