Нет единого измерителя производительности генеративных AI-моделей, но ключевым показателем является количество токенов, обрабатываемых в секунду. Сегодня SambaNova Systems объявила о значительном достижении в производительности генеративного ИИ, достигнув впечатляющей скорости в 1 000 токенов в секунду с моделью для инструкций Llama 3 на 8 миллиардов параметров. Ранее рекордная скорость для Llama 3 принадлежала Groq и составляла 800 токенов в секунду. Этот новый показатель был независимо проверен тестовой компанией Artificial Analysis. Повышенная скорость обработки имеет важные последствия для предприятий, потенциально обеспечивая более быстрые времена отклика, улучшенное использование оборудования и сниженные операционные расходы.
Соревнование по производительности AI
"Мы наблюдаем ускорение гонки за ИИ-чипами, превышающее все ожидания. Нам было приятно подтвердить утверждения SambaNova независимыми испытаниями, сосредоточенными на реальной производительности", - сказал Джордж Кэмерон, соучредитель Artificial Analysis. "Разработчики ИИ теперь имеют более широкий выбор оборудования, что особенно полезно для приложений, зависящих от скорости, таких как AI-агенты и потребительские ИИ-решения, требующие минимального времени отклика и эффективной обработки документов."
Как SambaNova ускоряет Llama 3 и генеративный ИИ
SambaNova нацелена на разработку решений генеративного ИИ для предприятий, предлагая как аппаратные, так и программные возможности.
С точки зрения аппаратного обеспечения, компания разработала уникальный ИИ-чип, известный как Реконфигурируемый Блок Данных (RDU). Подобно ускорителям ИИ от Nvidia, RDU эффективно выполняет как обучение, так и вывод, одновременно улучшая нагрузку на предприятия и настройку моделей. Последняя модель, SN40L, была представлена в сентябре 2023 года.
SambaNova также предлагает собственный программный стек, включая модель Samba-1, выпущенную 28 февраля. Эта модель с 1 триллионом параметров называется Samba-CoE (Сочетание Экспертов), что позволяет предприятиям использовать несколько моделей отдельно или в комбинации, адаптированных под их данные.
Для достижения скорости в 1 000 токенов в секунду SambaNova использовала свою модель Samba-1 Turbo, API-версию, доступную для тестирования. Компания планирует интегрировать эти улучшения скорости в свою основную модель для предприятий в ближайшее время. Однако Кэмерон отметил, что результаты Groq в 800 токенов в секунду относятся к его общедоступной API-точке, в то время как результаты SambaNova получены с помощью специализированной частной точки, что делает прямое сравнение менее очевидным.
"Тем не менее, эта скорость превышает 8-кратный медианный выход других API-поставщиков, которые мы тестировали, и в несколько раз быстрее, чем типичные выходные показатели на Nvidia H100", - заявил Кэмерон.
Реконфигурируемый поток данных для улучшения производительности
Производительность SambaNova обеспечивается ее архитектурой реконфигурируемого потока данных, которая является центральной для технологии RDU. Эта архитектура позволяет оптимизировать распределение ресурсов между слоями нейронных сетей и ядрами через компилятор.
"С помощью потока данных мы можем постоянно дорабатывать отображения модели, так как они полностью реконфигурируемы", - сказал Родриго Лианг, CEO и основатель SambaNova. "Это приводит не только к небольшим улучшениям, но и к значительному повышению эффективности и производительности по мере эволюции программного обеспечения."
Изначально при выпуске Llama 3 команда Лианга достигла производительности в 330 токенов в секунду на Samba-1. Благодаря обширной оптимизации за последние месяцы эта скорость утроилась до 1 000 токенов в секунду. Лианг объяснил, что оптимизация включает балансировку распределения ресурсов между ядрами для предотвращения узких мест и максимизации общего пропускной способности внутри нейронного сетевого конвейера, что аналогично подходу, применяемому в программном стеке SambaNova для помощи предприятиям в их усилиях по настройке.
Качество для предприятий и высокая скорость
Лианг подчеркнул, что SambaNova достигает этого скоростного рубежа, используя 16-битную точность, стандарт, который обеспечивает необходимое качество для предприятий.
Он отметил: "Мы постоянно использовали 16-битную точность для наших клиентов, так как они придают большое значение качеству и минимизации галлюцинаций в выходных данных."
Важность скорости для пользователей из бизнеса растет по мере того, как организации все больше внедряют рабочие процессы, управляемые AI-агентами. Более того, более быстрое время генерации предлагает экономические преимущества.
"Чем быстрее мы можем генерировать ответы, тем больше ресурсов мы освобождаем для использования другими", - добавил он. "В конечном итоге это приводит к более компактной инфраструктуре и экономии затрат."