Питая чудовище: Как растущий рынок данных подпитывает неутолимую потребность в LLM.

Home Новости ИИ Питая чудовище: Как растущий рынок данных подпитывает неутолимую потребность в LLM.

Updated on октябрь 29 2024

На прошлой неделе я обсудил идеи Марка Цукерберга о стратегии AI компании Meta, выделив одно важное преимущество: обширный и постоянно расширяющийся внутренний набор данных для обучения моделей Llama. Цукерберг отметил, что Facebook и Instagram содержат «сотни миллиардов публично опубликованных изображений и десятки миллиардов публичных видео», что превышает объем набора данных Common Crawl. Пользователи также делятся огромными объемами публичных текстовых постов на этих платформах.

Ненасытные потребности данных для AI

Тем не менее, данные для обучения таких моделей, как у Meta, OpenAI и Anthropic, являются лишь отправной точкой в понимании требований к данным современных больших языковых моделей (LLM). Постоянный спрос на вывод — использование LLM для различных приложений — создает бесконечный цикл потребления данных. Это напоминает классическую игру «Голодные бегемоты», где AI-алгоритмы жадно собирают данные для эффективного функционирования.

Специфические наборы данных для эффективного вывода AI

Брэд Шнайдер, основатель и CEO Nomad Data, подчеркнул: «[Вывод — это] более крупный рынок, и я не думаю, что люди это понимают». Nomad Data выступает в роли платформы для поиска данных, соединяя более 2 500 поставщиков данных с компаниями, ищущими специфические наборы данных для своих потребностей в LLM.

Вместо того чтобы действовать как посредник по данным, Nomad позволяет компаниям искать данные на естественном языке. Например, пользователь может запросить «дату с информацией о каждом доме, находящемся на стадии строительства в США каждый месяц». Шнайдер отметил, что многие пользователи не осознают точную номенклатуру необходимых им наборов данных. LLM от Nomad помогают выявлять соответствующих поставщиков, способных предоставить нужные данные.

Мгновенное сопоставление данных

Быстрое сопоставление спроса и предложения демонстрирует эффективность платформы. Шнайдер вспомнил случай с одной страховой компанией, которая разместила свои данные на Nomad: почти сразу после этого другая компания искала подробные данные о ДТП, не осознавая, что такая информация подпадает под «страховые данные». «Вот в этом и заключается магия», — отметил Шнайдер.

Важность постоянного поступления данных

Хотя обучающие данные имеют первостепенное значение, Шнайдер подчеркнул, что модели обучаются редко, а вывод осуществляется непрерывно — порой тысячи раз в минуту. Этот постоянный спрос на свежие данные критически важен для компаний, использующих генеративный AI, особенно для создания ценной информации. «Вы должны кормить это, чтобы оно могло делать что-то интересное», — объяснил он.

Поиск правильных данных «питания» остается вызовом для крупных компаний. Сначала использование внутренних данных критично, но интеграция качественных внешних наборов данных исторически была сложной задачей. Организациям часто было трудно извлекать полезную информацию из огромных архивов, таких как миллионы PDF-документов. К счастью, теперь LLM могут быстро анализировать текстовые данные из различных источников, включая данные потребителей и правительственные документы.

Открытие ценности ранее невостребованных данных

Шнайдер сравнил эту трансформацию с обнаружением «погребенного сокровища». Данные, когда-то считавшиеся бесполезными, стали высоко ценными. Кроме того, данные необходимы для настройки обучения LLM. Например, для разработки модели распознавания японских квитанций необходим набор данных таких квитанций. Аналогично, создание модели, определяющей рекламу на изображениях футбольных полей, требует набора данных соответствующих видео.

Медиа-компании монетизируют свои данные

Крупные медиа-компании также начинают лицензировать свои данные компаниям, работающим с LLM. OpenAI недавно сотрудничала с Axel Springer, в то время как переговоры с The New York Times завершились судебным разбирательством. Nomad Data активно сотрудничает с медиа-организациями и другими компаниями, чтобы расширить свою сеть поставщиков данных. Шнайдер сообщил, что Nomad взаимодейстует с несколькими корпорациями — от автопроизводителей до страховых компаний, которые размещают свои данные на платформе.

Постоянный спрос на данные LLM

По сути, цепочка поставок данных для LLM представляет собой самоподдерживающийся цикл. Nomad Data использует LLM для определения новых поставщиков данных и затем помогает пользователям находить необходимые данные. Эти данные затем используются с LLM API для обучения и вывода.

«LLM играют ключевую роль в нашем бизнесе», — подчеркнул Шнайдер. «По мере накопления текстовых данных мы постоянно учимся, как использовать эти разнообразные наборы данных».

Данные для обучения AI составляют лишь небольшую часть от общего объема рынка, и вывод LLM с индивидуальной настройкой предлагает наиболее захватывающие возможности. Шнайдер отметил: «Теперь я могу получить данные, которые ранее не имели никакой ценности, и это будет инструментом для развития моего бизнеса благодаря новым технологиям».

Трансформация управления персоналом: ADP Assist привносит инновации на основе ИИ

Roblox преодолевает языковые барьеры с помощью перевода чата в реальном времени на базе ИИ.

Most people like

Scribble Diffusion

94.2K

Scribble Diffusion использует мощь ИИ, чтобы без усилий преобразовывать грубые наброски в потрясающие, отточенные произведения искусства. Этот инновационный инструмент расширяет возможности творчества и становится настоящим прорывом для художников и дизайнеров.

ИИ AI Image Enhancer

Smartick

1.1M

Откройте для себя онлайн-платформу по математике, созданную для персонализированного обучения. Наш инновационный подход адаптирует образовательные процессы под индивидуальные потребности каждого студента, обеспечивая более эффективное и увлекательное усвоение математических концепций. Присоединяйтесь к нам, чтобы улучшить свои математические навыки с помощью индивидуализированных уроков, интерактивных инструментов и ресурсов, поддерживающих уникальный путь каждого ученика. Откройте будущее математического образования уже сегодня!

Начальное математическое образование AI Education Assistant

UI Bakery

111.8K

Быстро создавайте приложения на основе данных всего за считанные секунды!

веб-приложения AI Analytics Assistant

Tars

163.2K

Tars — это инновационная платформа, разработанная для повышения вовлеченности клиентов и поддержки с помощью современных чат-ботов на базе искусственного интеллекта. Оптимизируя взаимодействия, Tars помогает компаниям предоставлять персонализированную помощь и улучшать пользовательский опыт.

платформа чат-ботов AI Chatbot

Find AI tools in YBX