야수를 길들이기: 급증하는 데이터 시장이 대규모 언어 모델에 대한 끊임없는 수요를 어떻게 자극하는가

Home AI 뉴스 야수를 길들이기: 급증하는 데이터 시장이 대규모 언어 모델에 대한 끊임없는 수요를 어떻게 자극하는가

지난주, 나는 마크 저커버그의 메타의 AI 전략에 대한 통찰을 논의하며, 그 중 한 가지 주요 이점인 방대한 내부 데이터셋과 지속적으로 확장되는 데이터셋에 대해 강조했습니다. 저커버그는 페이스북과 인스타그램이 "수천억 개의 공개 공유 이미지와 수십억 개의 공개 비디오"를 보유하고 있으며, 이는 Common Crawl 데이터셋의 크기를 초월한다고 언급했습니다. 사용자들은 또한 이 플랫폼에서 방대한 양의 공개 텍스트 게시물을 공유하고 있습니다.

AI의 끝없는 데이터 필요성

그러나 메타, 오픈AI, 앤트로픽과 같은 회사의 모델을 훈련하는 데이터는 오늘날의 대형 언어 모델(LLM)의 데이터 요구 사항을 이해하는 시작점일 뿐입니다. LLM을 다양한 애플리케이션에 활용하기 위한 지속적인 수요가 데이터 소비의 끊임없는 사이클을 만든다는 점이 중요합니다. 이는 고전 게임 '허기 진 하마'처럼, AI 모델이 효과적으로 기능하기 위해 데이터를 끊임없이 수집하는 것과 같습니다.

효과적인 AI 추론을 위한 특정 데이터셋

노마드 데이터의 창립자이자 CEO인 브래드 슈나이더는 "추론은 더 큰 시장이다, 사람들이 그 사실을 잘 모른다"고 강조했습니다. 노마드 데이터는 2,500개 이상의 데이터 공급업체를 LLM 추론 필요에 맞는 특정 데이터셋을 찾는 기업과 연결하는 데이터 검색 플랫폼입니다. 노마드는 데이터 중개업체가 아닌 자연어로 데이터를 검색할 수 있도록 지원하며, 예를 들어 사용자가 "매달 미국에서 공사 중인 모든 지붕의 데이터 피드"를 요청할 수 있습니다. 슈나이더는 많은 사용자가 필요한 데이터셋의 정확한 용어를 모르고 있다고 설명했습니다. 노마드의 LLM은 관련 공급업체를 식별하는 데 도움을 줍니다.

즉각적인 데이터 매칭

수요와 공급의 빠른 매칭은 플랫폼의 효과를 잘 보여줍니다. 슈나이더는 데이터 목록을 노마드에 올린 한 보험 회사를 회상했습니다: 거의 즉시 다른 회사가 "보험 데이터" 카테고리에 해당하는 상세 자동차 사고 데이터를 검색했습니다. "이게 일종의 마법"이라고 슈나이더는 언급했습니다.

지속적인 데이터 공급의 중요성

훈련 데이터는 필수적이지만, 슈나이더는 모델이 드물게 훈련되고 추론은 계속 이루어진다고 강조했습니다—때로는 매분 수천 번 발생합니다. 생동감 있는 AI를 활용하는 기업에게는 신선한 데이터의 지속적인 수요가 중요합니다. 그는 "무언가를 흥미롭게 만들기 위해서는 뭔가를 공급해야 한다"고 설명했습니다.

대기업에 있어 올바른 데이터 "급여"를 식별하는 것은 여전히 도전 과제입니다. 초기에는 내부 데이터를 활용하는 것이 중요하지만, 고품질 외부 데이터셋을 통합하는 것이 역사적으로 어려웠습니다. 조직들은 수백만 개의 PDF와 같은 방대한 아카이브에서 유용한 정보를 추출하는 데 어려움을 겪어왔습니다. 다행히도 이제 LLM은 다양한 출처에서 텍스트 데이터를 신속하게 분석할 수 있습니다.

이전에 활용되지 않던 데이터의 가치 unlock

슈나이더는 이 변화를 "묻힌 보물을 발견하는 것"에 비유했습니다. 한때 쓸모없는 데이터가 이제는 매우 가치 있게 되었습니다. 또한 데이터는 LLM 훈련을 맞춤형으로 만드는 데 필수적입니다. 예를 들어, 일본 영수증을 인식하는 모델을 개발하려면 그러한 영수증의 데이터셋이 필요합니다. 마찬가지로, 축구 필드 이미지에서 광고를 식별하는 모델을 만들기 위해서는 관련 비디오 데이터셋이 요구됩니다.

데이터를 수익화하는 미디어 기업

대형 미디어 기업들도 LLM 회사에 데이터를 라이센스하기 시작했습니다. 오픈AI는 최근 악셀 스프링거와 파트너십을 체결했고, 뉴욕 타임스와의 협상은 소송으로 끝났습니다. 노마드 데이터는 미디어 및 기타 회사와 적극적으로 협력하여 데이터 공급업체 네트워크를 확장하고 있습니다. 슈나이더는 노마드가 자동차 제조사부터 보험 회사에 이르기까지 여러 기업과 협력하여 데이터를 플랫폼에 등록하고 있다고 보고했습니다.

LLM 데이터에 대한 지속적인 수요

결국, LLM 데이터 공급망은 자기 강화 루프입니다. 노마드 데이터는 LLM을 활용하여 새로운 데이터 공급업체를 식별하고, 이후 사용자가 필요한 데이터를 찾는 것을 지원합니다. 이 데이터는 LLM API를 사용해 훈련 및 추론에 활용됩니다. 슈나이더는 "LLM은 우리 비즈니스에 필수적이다"고 강조하며, "더 많은 텍스트 데이터를 수집할수록 이러한 다양한 데이터셋을 활용하는 방법을 지속적으로 배우고 있다"고 말했습니다.

AI 훈련 데이터는 전체 시장의 작은 부분일 뿐이며, LLM 추론과 맞춤형 훈련이 가장 흥미로운 기회를 제공합니다. 슈나이더는 "이제 이전에는 가치가 없는 데이터를 얻을 수 있어서, 이러한 신기술 덕분에 내 비즈니스를 구축하는 데 매우 중요할 것"이라고 언급했습니다.

인적 자원 혁신: ADP Assist가 AI 혁신을 가져옵니다.

로블록스, AI 기반 실시간 채팅 번역으로 언어 장벽 극복

Most people like

MagickPen

35.4K

궁극적인 AI 기반 작성 도구를 만나보세요. 매끄러운 텍스트 생성을 위해 설계된 이 혁신적인 도구는 쉽고 효율적으로 글쓰기 과정을 변화시켜줍니다. 고품질 콘텐츠를 손쉽게 작성할 수 있도록 돕는 이 도구와 함께 창의성 및 생산성을 높여보세요. 글쓰기 작업이 더 빠르고 즐겁게 진행될 것입니다.

인공지능 AI Content Generator

Storykit

66.6K

콘텐츠를 향상시키세요: 고성능 비디오로 변환하기 오늘날의 디지털 환경에서는 비디오 콘텐츠가 최고의 자리를 차지하며, 플랫폼 전반에서 참여도를 높이고 도달 범위를 확장합니다. 작성한 자료를 매력적인 비디오로 변환함으로써 청중과의 상호작용을 강화하고 콘텐츠의 가시성을 극대화할 수 있습니다. 시청자와 공감하며 브랜드 존재감을 높이는 매력적이고 고성능의 비디오로 콘텐츠를 효과적으로 변환하는 방법을 살펴봅시다.

비디오 제작 Text to Video

Synthical

49.1K

Synthical은 다양한 출처의 최신 콘텐츠를 제공하여 과학 연구의 효율성을 높입니다. 효율성과 접근성을 중시하는 Synthical은 연구자들이 여러 분야에서 최신 발견과 통찰을 쉽게 접할 수 있도록 지원합니다.

과학 Research Tool

Twixify

310.6K

당신의 글쓰기 잠재력을 열어보세요. 우리의 고급 텍스트 재작성 도구는 당신의 독특한 글쓰기 스타일에 맞춰 설계되었습니다. 명확성을 높이거나 참여도를 향상시키거나 내용을 다듬고 싶든, 우리의 도구는 당신의 필요에 맞춘 맞춤형 제안을 제공합니다. 원래의 의미를 그대로 유지하면서 아이디어를 매력적인 문장으로 원활하게 변환해보세요. 오늘 당신의 글쓰기를 향상시켜보세요!

텍스트 재작성 AI SEO Assistant

Find AI tools in YBX