넷플릭스는 시청 데이터 공개 방침을 변경하며 2023년 1월부터 6월까지 100,000시간 이상 시청된 타이틀에 대한 공공 데이터셋을 공개했습니다. 이 보고서는 “What We Watched: A Netflix Engagement Report”라는 제목으로, 넷플릭스 전체 시청의 99%를 차지하는 18,000개 이상의 타이틀과 거의 1,000억 시간의 시청 기록을 포함합니다. 넷플릭스는 이 보고서를 매년 두 번 업데이트할 계획입니다.
넷플릭스는 "시청 시간(viewership hours)"을 측정하며, 이는 시청자 수나 가구 수가 아닌 동일한 타이틀을 여러 번 재시청하는 경우를 고려합니다. 일부 주요 발견 사항들이 강조되었지만, 저는 블로그에서 보고서를 Excel 스프레드시트로 다운로드하여 더욱 깊이 있는 데이터 분석을 진행했습니다. 저는 OpenAI의 ChatGPT (GPT-4, 개인 ChatGPT Plus 구독 사용)를 활용하여 데이터를 분석했습니다.
결과적으로, ChatGPT는 데이터셋에 대한 간결하고 명확한 분석을 제공했지만, 차트 생성 시 어려움이 있었습니다. 초기 요청은 단순한 데이터 분석이었고, ChatGPT는 내용을 효과적으로 요약했습니다. 또한 “주요 통찰”을 제시하며 "발표 날짜" 열의 결측값이 많아 시간 기반 분석에 지장을 줄 수 있다는 점을 강조했습니다.
흥미롭게도 주요 통찰의 첫 번째 섹션은 “2023년 1월-6월 최다 시청 타이틀 10개”로 명명되었으나, 직접적인 타이틀 목록이 없어 별도로 요청해야 했습니다. 또한, 가장 적게 시청된 타이틀, 중간 시청 타이틀, 평균 시청 시간 및 평균에 가장 가까운 타이틀에 대한 데이터를 요청했으며, ChatGPT는 모두 만족스럽게 제공했습니다.
그러나 월별 시청 시간을 나타내는 선 그래프를 요청했을 때 ChatGPT는 어려움을 겪었습니다. 데이터셋은 월별로 시청 데이터를 제공하지 않았고, 각 타이틀에 대한 6개월간의 총 시청 시간만을 제시했습니다. 초기 그래프는 날짜가 2010년으로 표시되어 거의 읽을 수 없는 상태였으며, 이는 데이터셋에서 가장 오래된 발매일에 해당했습니다.
수정을 요청한 후, 더 읽기 쉬운 그래프를 받았지만 여전히 오해의 소지가 있었습니다. 이 차트는 각 월에 출시된 새로운 타이틀의 총 누적 시청 시간을 표시했고, 예를 들어 1월에 출시된 타이틀의 경우 1월에서 6월까지의 총 시청 시간을 포함했습니다. ChatGPT는 이 점을 명확히 하지 못했고, 구체적인 지시 없이는 차트를 부정확하게 라벨링했습니다. 적절하게 라벨이 붙은 유용한 차트를 얻기까지 여러 번의 수정이 필요했습니다.
ChatGPT는 일반 사용자에게 유용한 분석 도구 역할을 하지만, 데이터 분석으로서의 신뢰성과 정확성은 개선의 여지가 큽니다.