Все обсуждают потрясающие доходы Nvidia, которые выросли на 265% за год. Однако не стоит забывать о Groq, стартапе из Силиконовой долины, который разрабатывает ИИ-чипы для выводов больших языковых моделей (LLM) — процесса прогнозирования с помощью существующих моделей, а не их обучения. На прошлых выходных Groq привлек внимание, о котором многие стартапы могут только мечтать.
Хотя это событие не было таким сенсационным, как один из постов Илона Маска о несвязанной модели Grok, Nvidia, вероятно, заметила, когда Матт Шумер, генеральный директор HyperWrite, поделился на X информацией о "дикой технологии" Groq. Шумер подчеркнул, что Groq может обслуживать Mixtral с почти 500 токенами в секунду (tok/s), обеспечивая практически мгновенные ответы.
Шумер также продемонстрировал на X "молниеносный движок ответов", который предоставляет "фактические, цитируемые ответы с сотнями слов менее чем за секунду". Это вызвало широкий интерес к чат-приложению Groq, где пользователи могут выбирать результаты, генерируемые моделями Llama и Mistral. Этот ажиотаж появился после интервью, в котором генеральный директор Groq Джонатан Росс продемонстрировал, как Groq поддерживает интерфейс аудиочата, который "бьёт рекорды скорости".
На данный момент ни одна компания не может соперничать с доминированием Nvidia, которая занимает более 80% рынка высококачественных чипов. Другие стартапы, такие как SambaNova и Cerebras, испытывают трудности с завоеванием популярности, несмотря на своё участие в сфере AI-инференса. С отчетом Nvidia о доходах в 22 миллиарда долларов за четвертый квартал Росс заявил, что Groq предлагает "сверхбыстрый" и экономичный вариант, адаптированный для LLM, который решает проблемы, связанные с высокими затратами на инференс.
Росс смело заявил: "Вероятно, к концу года мы станем инфраструктурой, которую использует большинство стартапов", и призвал стартапы обращаться за конкурентоспособными ценами.
LPUs Groq против GPUs Nvidia
Groq описывает свои LPU (модули обработки языка) как прорывную систему обработки, оптимизированную для быстрого инференса в AI-языковых приложениях. В отличие от GPUs Nvidia, которые ориентированы на параллельную графическую обработку, LPU Groq эффективно управляют последовательностями данных — кодом и естественным языком — обеспечивая более быстрый вывод, преодолевая ограничения вычислительной плотности и пропускной способности памяти, с которыми сталкиваются традиционные GPUs и CPUs.
Кроме того, Росс отметил, что Groq отличается от компаний, таких как OpenAI, тем, что не обучает модели, что позволяет ему сохранять конфиденциальность пользователей, избегая регистрации запросов чата.
С учетом оценок, что ChatGPT может работать более чем в 13 раз быстрее с чипами Groq, может ли OpenAI стать будущим партнером? Хотя Росс не подтвердил конкретные сотрудничества, он упомянул, что партнерство может быть выгодным, если обе стороны разделяют общие цели.
Являются ли LPU Groq действительно прорывом в AI-инференсе?
С декабря я стремился поговорить с Россом, когда Groq был назван "американским производителем чипов, готовым выиграть гонку в AI". Теперь я хотел понять, являются ли LPU Groq настоящим прорывом в AI-инференсе или просто очередным мимолетным трендом, вызванным PR.
Росс описал посты Шумера как "спичку, зажигавшую фитиль", отметив, что в течение 24 часов более 3000 человек запросили доступ к API. "Мы позволяем людям использовать его бесплатно в данный момент", добавил он.
Росс не новичок на стартап-сцене; он совместно изобрел тензорный процессор Google (TPU) перед тем, как основать Groq в 2016 году. Он объяснил, что подход Groq уникален: "Если вы строите автомобиль, вы можете начать с двигателя или с опыта вождения. Мы начали с опыта вождения, потратив первые шесть месяцев на разработку сложного компилятора".
Спрос на GPUs Nvidia значительно возрос в индустрии AI, создавая прибыльный рынок. Появились новые облачные сервисы GPU, в то время как бывший CEO GitHub Нат Фридман недавно упомянул о торговой площадке для кластеров GPU. Сообщения указывают на то, что CEO OpenAI Сэм Альтман планирует решить потребности в AI-чипах через масштабный проект с колоссальным ценником и сложными геополитическими последствиями.
Росс считает, что текущая климатическая ситуация с GPU частично является ответом на инициативы Groq. "Есть некоторая добродетельная цикличность", сказал он, имея в виду сделки Nvidia с суверенными государствами как часть своих грядущих мировых переговоров.
Когда его спросили о амбициях Альтмана по инициативе по AI-чипам в 7 триллионов долларов, Росс уверенно заявил: "Мы могли бы сделать это за 700 миллиардов долларов. Мы – выгодное предложение".
Groq также стремится улучшить возможности поставок AI-чипов. “[К концу года], у нас определенно будет возможность обработки 25 миллионов токенов в секунду, что соответствует нашей оценке, где OpenAI будет к концу 2023 года”, — сказал он, подчеркивая продолжающиеся переговоры с различными странами для расширения этой возможности.
Однако Groq также сталкивается с практическими вызовами, такими как внедрение биллинга API в свете недавнего всплеска интереса. Когда я поинтересовался их планами по биллингу, Росс ответил: "Мы это рассмотрим", только для того, чтобы его PR-представитель подтвердил: "Да, это будет одним из первых дел".