Откуда мы пришли? Анализ растущего интереса к данным и инструментам для работы с ними

В последние десять лет ландшафт инструментов и инфраструктуры данных претерпел значительные изменения. Я, являясь основателем компании по облачной инфраструктуре данных с 2009 года и инициатором сообщества для инженеров данных с 2013 года, стал свидетелем эволюции этого сообщества задолго до того, как "инженер данных" стал официальной профессией. Эта уникальная перспектива позволяет мне осмыслить уроки прошлого и то, как они должны влиять на развитие новой эры искусственного интеллекта.

В области техноантропологии 2013 год стал переходом от эпохи "больших данных" к эпохе "современного стека данных" (MDS). В период больших данных преобладала уверенность, что больше данных означает лучшие аналитические выводы, якобы открывая новые бизнес-ценности.

В качестве стратегического консультанта для крупной интернет-компании я однажды получил задачу разработать стратегию анализа огромного объема данных, получаемых от миллиардов ежедневных DNS-запросов, чтобы вскрыть потенциальные выводы стоимостью 100 миллионов долларов. К сожалению, несмотря на наши усилия, нам не удалось обнаружить такие выводы в ограниченные сроки проекта. Этот опыт укрепил важный урок: хотя хранение огромных объемов данных относительно просто, извлечение значимых аналитических выводов — сложная и ресурсозатратная задача.

Понимая эту проблему, компании начали активно укреплять свою инфраструктуру данных, опираясь на мантру, что выводы можно получить только при оптимизированных системах данных. Этот порыв привел к стремительному росту числа инструментов для работы с данными, поскольку поставщики утверждали, что предлагают недостающий элемент полного стек данных, способный приносить эти elusive аналитические выводы.

Термин "взрыв" не употребляется легкомысленно: согласно ландшафту MAD (Machine Learning, AI, and Data) 2024 года от Мэтта Тёрка, количество компаний, предлагающих инструменты для инфраструктуры данных, увеличилось с 139 в 2012 году до 2011 в этом году — поразительное увеличение в 14,5 раз.

Проблема перегрузки инструментами

Несколько факторов сформировали сегодняшний ландшафт данных. Многие компании перенесли свои локальные рабочие нагрузки в облако, при этом поставщики современных стеков данных предлагали управляемые услуги, предназначенные для надежности, гибкости и масштабируемости.

Тем не менее, с расширением набора инструментов в период политики низких процентных ставок (ZIRP) возникли серьезные проблемы. Сложность использования множества различных инструментов, трудности интеграции и недоступные облачные услуги вызывали сомнения в том, что MDS сможет оправдать свои обещания.

Многие компании из списка Fortune 500 массово инвестировали в инфраструктуру данных без продуманной стратегии извлечения ценности из этих данных. Привлекательность сбора широкого спектра инструментов привела к дублированию, когда команды внутри одной организации часто использовали пересекающиеся платформы, такие как Tableau и Looker, что вызывало рост затрат без соответствующих преимуществ.

Несмотря на последующее разрушение пузыря ZIRP, ландшафт MAD продолжает расширяться. Почему так?

Новый ИИ стек

Многие компании по разработке инструментов данных, хорошо капитализированные в эпоху ZIRP, продолжают работать, несмотря на ужесточение бюджетов предприятий и снижение рыночного спроса. Существенным фактором является высокий интерес к ИИ, который породил новую волну инструментов для работы с данными, не претерпев значительных рыночных консолидирований с предыдущей эпохи.

"Стек ИИ" представляет собой принципиально новую парадигму. В то время как традиционные стекы данных были предназначены для структурированных данных, новая волна ИИ процветает на огромных неструктурированных наборах данных — текстах, изображениях и видео. Кроме того, генеративные модели ИИ отличаются от более старых детерминированных моделей машинного обучения тем, что создают разнообразные выходные данные даже из неизменных входных данных, как это видно на примере таких инструментов, как ChatGPT.

Учитывая эти различия, разработчикам необходимо применять новые методологии для оценки и мониторинга выходных данных моделей ИИ, обеспечивая этическое управление и эффективную интеграцию. Основные области фокуса должны включать оркестрацию агентов (взаимодействие между моделями), разработку специализированных моделей для узких случаев использования и инновационные инструменты для кураторства наборов данных.

Множество стартапов уже занимаются решением этих задач, что приводит к появлению передовых инструментов в новом стеке ИИ.

Строим умнее в новой эре ИИ

Поскольку мы движемся по пути новой эры ИИ, важно признать наше прошлое. Данные служат основой ИИ, а множество инструментов, доступных сегодня, проложило путь к тому, чтобы рассматривать данные как важный актив. Тем не менее, нам следует задаться вопросом, как избежать ошибок прошлого, двигаясь вперед.

Один из подходов заключается в том, чтобы предприятия четко определили конкретную ценность, которую они ожидают от каждого конкретного инструмента для работы с данными или ИИ. Переусердствование с технологическими трендами без стратегической цели может быть вредным, особенно когда ажиотаж вокруг ИИ отвлекает внимание и бюджеты. Важно приоритизировать инструменты, которые демонстрируют четкую ценность и измеримую отдачу от инвестиций.

Основатели также должны быть осторожны при создании "аналогичных" решений. Перед тем как пойти на создание нового инструмента на насыщенном рынке, они должны оценить, есть ли у их команды уникальные идеи и отличительная экспертиза, которые действительно добавят ценности.

Инвесторы также должны критически оценивать, где будет сосредоточиваться ценность в стеке инструментов данных и ИИ, прежде чем делать инвестиции. Полагание только на репутацию основателя из престижных компаний может привести к насыщенному рынку, полному недифференцированных продуктов.

На недавней конференции был задан красноречивый вопрос: "Какова стоимость для вашего бизнеса, если одна строка ваших данных неверна?" Это побуждает компании установить четкую структуру для количественной оценки ценности данных и инструментов для работы с данными в их операциях.

Без этой ясности никакие инвестиции в инструменты для работы с данными и ИИ не разрешат существующую путаницу.

Most people like

Find AI tools in YBX