Питая чудовище: Как растущий рынок данных подпитывает неутолимую потребность в LLM.

На прошлой неделе я обсудил идеи Марка Цукерберга о стратегии AI компании Meta, выделив одно важное преимущество: обширный и постоянно расширяющийся внутренний набор данных для обучения моделей Llama. Цукерберг отметил, что Facebook и Instagram содержат «сотни миллиардов публично опубликованных изображений и десятки миллиардов публичных видео», что превышает объем набора данных Common Crawl. Пользователи также делятся огромными объемами публичных текстовых постов на этих платформах.

Ненасытные потребности данных для AI

Тем не менее, данные для обучения таких моделей, как у Meta, OpenAI и Anthropic, являются лишь отправной точкой в понимании требований к данным современных больших языковых моделей (LLM). Постоянный спрос на вывод — использование LLM для различных приложений — создает бесконечный цикл потребления данных. Это напоминает классическую игру «Голодные бегемоты», где AI-алгоритмы жадно собирают данные для эффективного функционирования.

Специфические наборы данных для эффективного вывода AI

Брэд Шнайдер, основатель и CEO Nomad Data, подчеркнул: «[Вывод — это] более крупный рынок, и я не думаю, что люди это понимают». Nomad Data выступает в роли платформы для поиска данных, соединяя более 2 500 поставщиков данных с компаниями, ищущими специфические наборы данных для своих потребностей в LLM.

Вместо того чтобы действовать как посредник по данным, Nomad позволяет компаниям искать данные на естественном языке. Например, пользователь может запросить «дату с информацией о каждом доме, находящемся на стадии строительства в США каждый месяц». Шнайдер отметил, что многие пользователи не осознают точную номенклатуру необходимых им наборов данных. LLM от Nomad помогают выявлять соответствующих поставщиков, способных предоставить нужные данные.

Мгновенное сопоставление данных

Быстрое сопоставление спроса и предложения демонстрирует эффективность платформы. Шнайдер вспомнил случай с одной страховой компанией, которая разместила свои данные на Nomad: почти сразу после этого другая компания искала подробные данные о ДТП, не осознавая, что такая информация подпадает под «страховые данные». «Вот в этом и заключается магия», — отметил Шнайдер.

Важность постоянного поступления данных

Хотя обучающие данные имеют первостепенное значение, Шнайдер подчеркнул, что модели обучаются редко, а вывод осуществляется непрерывно — порой тысячи раз в минуту. Этот постоянный спрос на свежие данные критически важен для компаний, использующих генеративный AI, особенно для создания ценной информации. «Вы должны кормить это, чтобы оно могло делать что-то интересное», — объяснил он.

Поиск правильных данных «питания» остается вызовом для крупных компаний. Сначала использование внутренних данных критично, но интеграция качественных внешних наборов данных исторически была сложной задачей. Организациям часто было трудно извлекать полезную информацию из огромных архивов, таких как миллионы PDF-документов. К счастью, теперь LLM могут быстро анализировать текстовые данные из различных источников, включая данные потребителей и правительственные документы.

Открытие ценности ранее невостребованных данных

Шнайдер сравнил эту трансформацию с обнаружением «погребенного сокровища». Данные, когда-то считавшиеся бесполезными, стали высоко ценными. Кроме того, данные необходимы для настройки обучения LLM. Например, для разработки модели распознавания японских квитанций необходим набор данных таких квитанций. Аналогично, создание модели, определяющей рекламу на изображениях футбольных полей, требует набора данных соответствующих видео.

Медиа-компании монетизируют свои данные

Крупные медиа-компании также начинают лицензировать свои данные компаниям, работающим с LLM. OpenAI недавно сотрудничала с Axel Springer, в то время как переговоры с The New York Times завершились судебным разбирательством. Nomad Data активно сотрудничает с медиа-организациями и другими компаниями, чтобы расширить свою сеть поставщиков данных. Шнайдер сообщил, что Nomad взаимодейстует с несколькими корпорациями — от автопроизводителей до страховых компаний, которые размещают свои данные на платформе.

Постоянный спрос на данные LLM

По сути, цепочка поставок данных для LLM представляет собой самоподдерживающийся цикл. Nomad Data использует LLM для определения новых поставщиков данных и затем помогает пользователям находить необходимые данные. Эти данные затем используются с LLM API для обучения и вывода.

«LLM играют ключевую роль в нашем бизнесе», — подчеркнул Шнайдер. «По мере накопления текстовых данных мы постоянно учимся, как использовать эти разнообразные наборы данных».

Данные для обучения AI составляют лишь небольшую часть от общего объема рынка, и вывод LLM с индивидуальной настройкой предлагает наиболее захватывающие возможности. Шнайдер отметил: «Теперь я могу получить данные, которые ранее не имели никакой ценности, и это будет инструментом для развития моего бизнеса благодаря новым технологиям».

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles