야수를 길들이기: 급증하는 데이터 시장이 대규모 언어 모델에 대한 끊임없는 수요를 어떻게 자극하는가

지난주, 나는 마크 저커버그의 메타의 AI 전략에 대한 통찰을 논의하며, 그 중 한 가지 주요 이점인 방대한 내부 데이터셋과 지속적으로 확장되는 데이터셋에 대해 강조했습니다. 저커버그는 페이스북과 인스타그램이 "수천억 개의 공개 공유 이미지와 수십억 개의 공개 비디오"를 보유하고 있으며, 이는 Common Crawl 데이터셋의 크기를 초월한다고 언급했습니다. 사용자들은 또한 이 플랫폼에서 방대한 양의 공개 텍스트 게시물을 공유하고 있습니다.

AI의 끝없는 데이터 필요성

그러나 메타, 오픈AI, 앤트로픽과 같은 회사의 모델을 훈련하는 데이터는 오늘날의 대형 언어 모델(LLM)의 데이터 요구 사항을 이해하는 시작점일 뿐입니다. LLM을 다양한 애플리케이션에 활용하기 위한 지속적인 수요가 데이터 소비의 끊임없는 사이클을 만든다는 점이 중요합니다. 이는 고전 게임 '허기 진 하마'처럼, AI 모델이 효과적으로 기능하기 위해 데이터를 끊임없이 수집하는 것과 같습니다.

효과적인 AI 추론을 위한 특정 데이터셋

노마드 데이터의 창립자이자 CEO인 브래드 슈나이더는 "추론은 더 큰 시장이다, 사람들이 그 사실을 잘 모른다"고 강조했습니다. 노마드 데이터는 2,500개 이상의 데이터 공급업체를 LLM 추론 필요에 맞는 특정 데이터셋을 찾는 기업과 연결하는 데이터 검색 플랫폼입니다. 노마드는 데이터 중개업체가 아닌 자연어로 데이터를 검색할 수 있도록 지원하며, 예를 들어 사용자가 "매달 미국에서 공사 중인 모든 지붕의 데이터 피드"를 요청할 수 있습니다. 슈나이더는 많은 사용자가 필요한 데이터셋의 정확한 용어를 모르고 있다고 설명했습니다. 노마드의 LLM은 관련 공급업체를 식별하는 데 도움을 줍니다.

즉각적인 데이터 매칭

수요와 공급의 빠른 매칭은 플랫폼의 효과를 잘 보여줍니다. 슈나이더는 데이터 목록을 노마드에 올린 한 보험 회사를 회상했습니다: 거의 즉시 다른 회사가 "보험 데이터" 카테고리에 해당하는 상세 자동차 사고 데이터를 검색했습니다. "이게 일종의 마법"이라고 슈나이더는 언급했습니다.

지속적인 데이터 공급의 중요성

훈련 데이터는 필수적이지만, 슈나이더는 모델이 드물게 훈련되고 추론은 계속 이루어진다고 강조했습니다—때로는 매분 수천 번 발생합니다. 생동감 있는 AI를 활용하는 기업에게는 신선한 데이터의 지속적인 수요가 중요합니다. 그는 "무언가를 흥미롭게 만들기 위해서는 뭔가를 공급해야 한다"고 설명했습니다.

대기업에 있어 올바른 데이터 "급여"를 식별하는 것은 여전히 도전 과제입니다. 초기에는 내부 데이터를 활용하는 것이 중요하지만, 고품질 외부 데이터셋을 통합하는 것이 역사적으로 어려웠습니다. 조직들은 수백만 개의 PDF와 같은 방대한 아카이브에서 유용한 정보를 추출하는 데 어려움을 겪어왔습니다. 다행히도 이제 LLM은 다양한 출처에서 텍스트 데이터를 신속하게 분석할 수 있습니다.

이전에 활용되지 않던 데이터의 가치 unlock

슈나이더는 이 변화를 "묻힌 보물을 발견하는 것"에 비유했습니다. 한때 쓸모없는 데이터가 이제는 매우 가치 있게 되었습니다. 또한 데이터는 LLM 훈련을 맞춤형으로 만드는 데 필수적입니다. 예를 들어, 일본 영수증을 인식하는 모델을 개발하려면 그러한 영수증의 데이터셋이 필요합니다. 마찬가지로, 축구 필드 이미지에서 광고를 식별하는 모델을 만들기 위해서는 관련 비디오 데이터셋이 요구됩니다.

데이터를 수익화하는 미디어 기업

대형 미디어 기업들도 LLM 회사에 데이터를 라이센스하기 시작했습니다. 오픈AI는 최근 악셀 스프링거와 파트너십을 체결했고, 뉴욕 타임스와의 협상은 소송으로 끝났습니다. 노마드 데이터는 미디어 및 기타 회사와 적극적으로 협력하여 데이터 공급업체 네트워크를 확장하고 있습니다. 슈나이더는 노마드가 자동차 제조사부터 보험 회사에 이르기까지 여러 기업과 협력하여 데이터를 플랫폼에 등록하고 있다고 보고했습니다.

LLM 데이터에 대한 지속적인 수요

결국, LLM 데이터 공급망은 자기 강화 루프입니다. 노마드 데이터는 LLM을 활용하여 새로운 데이터 공급업체를 식별하고, 이후 사용자가 필요한 데이터를 찾는 것을 지원합니다. 이 데이터는 LLM API를 사용해 훈련 및 추론에 활용됩니다. 슈나이더는 "LLM은 우리 비즈니스에 필수적이다"고 강조하며, "더 많은 텍스트 데이터를 수집할수록 이러한 다양한 데이터셋을 활용하는 방법을 지속적으로 배우고 있다"고 말했습니다.

AI 훈련 데이터는 전체 시장의 작은 부분일 뿐이며, LLM 추론과 맞춤형 훈련이 가장 흥미로운 기회를 제공합니다. 슈나이더는 "이제 이전에는 가치가 없는 데이터를 얻을 수 있어서, 이러한 신기술 덕분에 내 비즈니스를 구축하는 데 매우 중요할 것"이라고 언급했습니다.

Most people like

Find AI tools in YBX