В значительном заявлении стартап Groq объявил, что его система достигает более 800 токенов в секунду с новым крупномасштабным языковым моделем LLaMA 3 от Meta. Инженер Дэн Джакайтис, проводивший тестирование LLaMA 3, отметил в X (ранее Twitter): «Мы немного тестировали их API, и сервис точно не так быстр, как показывали демонстрации оборудования. Вероятно, это больше вопрос программного обеспечения — все равно рад за более широкое использование Groq».
В противоположность этому соучредитель и CEO OthersideAI Мэтт Шумер, вместе с другими известными пользователями, подтвердил, что система Groq действительно обеспечивает быструю скорость вывода, превышающую 800 токенов в секунду с LLaMA 3. Если это подтвердится, данная производительность будет значительно превосходить существующие облачные AI-сервисы, и предварительные тесты указывают на достоверность утверждений Шумера.
Инновационная архитектура процессора, оптимизированная для AI
Groq, обеспеченный финансированием стартап из Силиконовой долины, разрабатывает уникальную архитектуру процессора, предназначенную для операций матричного умножения, которые имеют ключевое значение для глубокого обучения. Его процессор Tensor Streaming избегает традиционных кешей и сложной управляющей логики CPU и GPU, предпочитая упрощенную модель выполнения, адаптированную для AI-задач.
Сокращая накладные расходы и узкие места памяти, обычно встречающиеся в универсальных процессорах, Groq утверждает, что может обеспечить превосходную производительность и эффективность для AI-вывода. Впечатляющий результат в 800 токенов в секунду с LLaMA 3, если он подтвердится, будет поддерживать это утверждение.
Архитектура Groq значительно отличается от архитектуры Nvidia и других известных производителей чипов. Вместо модификации универсальных чипов для AI, Groq специально создал процессор Tensor Streaming для удовлетворения вычислительных потребностей глубокого обучения.
Этот инновационный подход позволяет Groq устранить ненужные схемы и оптимизировать поток данных для повторяющихся и параллелизуемых задач, характерных для AI-вывода. Это приводит к значительному снижению задержек, потребления энергии и затрат, связанных с эксплуатацией больших нейронных сетей по сравнению с основными альтернативами.
Необходимость быстрого и эффективного AI-вывода
Достижение 800 токенов в секунду эквивалентно приблизительно 48,000 токенов в минуту — достаточно для генерации около 500 слов текста всего за одну секунду. Эта скорость почти в десять раз превышает обычные показатели вывода для крупных языковых моделей на традиционных GPU в облаке сегодня.
Поскольку языковые модели становятся все более крупными, с миллиардами параметров, необходимость в быстром и эффективном AI-выводе становится все более актуальной. Хотя обучение этих огромных моделей требует значительных вычислительных мощностей, их экономически эффективное развертывание зависит от оборудования, способного на быструю обработку без чрезмерного потребления энергии. Это критично для приложений, чувствительных к задержкам, таких как чат-боты, виртуальные ассистенты и интерактивные платформы.
Энергоэффективность AI-вывода становится все более важной, поскольку технологии продолжают развиваться. Центры обработки данных уже являются значительными потребителями энергии, и высокие вычислительные требования крупномасштабного AI могут усугубить эту проблему. Оборудование, которое сочетает в себе высокую производительность и низкое потребление энергии, необходимо для достижения устойчивости AI в масштабах, и процессор Tensor Streaming от Groq разработан для решения этой задачи.
Вызов господству Nvidia
На данный момент Nvidia занимает лидирующие позиции на рынке процессоров AI с помощью своих GPU A100 и H100, которые обеспечивают работу большинства облачных AI-сервисов. Однако новая волна стартапов, включая Groq, Cerebras, SambaNova и Graphcore, разрабатывают инновационные архитектуры, созданные специально для AI.
Среди этих конкурентов Groq особенно акцентирует внимание на своем фокусе как на выводе, так и на обучении. CEO Джонатан Росс уверенно предсказал, что к концу 2024 года большинство стартапов в области AI будут использовать тензорные потоковые процессоры Groq для вывода.
Запуск LLaMA 3 от Meta, который хвалят как одну из самых мощных моделей открытого исходного кода, предоставляет Groq идеальную возможность продемонстрировать возможности вычислений своего оборудования. Если технологии Groq смогут превзойти основные альтернативы в работе с LLaMA 3, это подтвердит утверждения стартапа и ускорит его рынок. Компания также создала новое бизнес-подразделение для повышения доступности своих чипов через облачные сервисы и стратегические партнерства.
Слияние мощных открытых моделей, таких как LLaMA, и эффективного, ориентированного на AI аппаратного обеспечения Groq может сделать передовой языковой AI более доступным и экономически эффективным для широкой аудитории бизнеса и разработчиков. Однако Nvidia остается серьезным конкурентом, и другие вызовущие компании готовы воспользоваться новыми возможностями.
По мере нарастания конкуренции в создании инфраструктуры, способной соответствовать быстрому прогрессу в разработке AI-моделей, достижение почти мгновенного вывода AI по доступной цене может революционизировать различные сектора, включая электронную коммерцию, образование, финансы и здравоохранение.
Один из пользователей на X.com лаконично подытожил: «скорость + низкая стоимость + качество = сейчас нет смысла использовать что-либо еще». Будущие месяцы покажут, верно ли это утверждение, подчеркивая, что рынок аппаратного обеспечения для AI развивается на фоне вызова традиционным нормам.