SambaNova Establece un Nuevo Récord de Velocidad para Llama 3 a 1,000 Tokens por Segundo

No existe un solo medidor para evaluar el rendimiento de los modelos de inteligencia artificial generativa, pero una métrica clave es el número de tokens procesados por segundo. Hoy, SambaNova Systems anunció un logro significativo en el rendimiento de la IA generativa, alcanzando impresionantes 1,000 tokens por segundo con el modelo de instrucción Llama 3 de 8 mil millones de parámetros. Anteriormente, el récord más rápido para Llama 3 estaba en manos de Groq, con 800 tokens por segundo. Este nuevo hito fue verificado de manera independiente por la firma de pruebas Artificial Analysis. La mayor velocidad de procesamiento tiene importantes implicaciones para las empresas, lo que podría resultar en tiempos de respuesta más rápidos, mejor utilización del hardware y reducción de costos operativos.

Una Carrera por el Rendimiento de la IA

“Estamos presenciando una aceleración en la carrera de chips de IA que supera las expectativas. Nos emocionó validar las afirmaciones de SambaNova con puntos de referencia independientes enfocados en el rendimiento en el mundo real”, comentó George Cameron, cofundador de Artificial Analysis. “Los desarrolladores de IA ahora tienen una gama más amplia de opciones de hardware, lo que es especialmente beneficioso para aplicaciones dependientes de velocidad, como agentes de IA y soluciones de IA para el consumidor que requieren tiempos de respuesta mínimos y procesamiento de documentos eficiente”.

Cómo SambaNova Acelera Llama 3 y la IA Generativa

SambaNova se dedica a desarrollar soluciones de IA generativa enfocadas en empresas, que incluyen capacidades tanto de hardware como de software.

En el ámbito del hardware, la compañía ha diseñado un chip de IA único conocido como Reconfigurable Dataflow Unit (RDU). Al igual que los aceleradores de IA de Nvidia, los RDU son hábiles tanto en entrenamiento como en inferencia, mejorando específicamente las cargas de trabajo empresariales y el ajuste fino de modelos. El modelo más reciente, el SN40L, fue presentado en septiembre de 2023.

SambaNova también ofrece un conjunto de software propietario que incluye el modelo Samba-1, lanzado el 28 de febrero. Este modelo, que comprende 1 billón de parámetros, se denomina Samba-CoE (Combinación de Expertos), permitiendo a las empresas utilizar múltiples modelos de manera independiente o en combinación, personalizados según sus necesidades de datos.

Para alcanzar la velocidad de 1,000 tokens por segundo, SambaNova utilizó su modelo Samba-1 Turbo, una versión API disponible para pruebas. La empresa planea integrar estas mejoras de velocidad en su modelo empresarial principal pronto. Sin embargo, Cameron señaló que la medida de 800 tokens por segundo de Groq se refiere a su punto de conexión API público, mientras que los resultados de SambaNova provienen de un punto de conexión privado dedicado, lo que hace que las comparaciones directas sean menos sencillas.

“Sin embargo, esta velocidad supera más de 8 veces la salida mediana de otros proveedores de API que evaluamos y es varias veces más rápida que las tasas de salida típicas en Nvidia H100s”, afirmó Cameron.

Dataflow Reconfigurable para un Rendimiento Mejorado

El rendimiento de SambaNova se impulsa mediante su arquitectura de flujo de datos reconfigurable, que es central en su tecnología RDU. Esta arquitectura permite una asignación optimizada de recursos entre las capas de redes neuronales y los núcleos a través del mapeo del compilador.

“Con dataflow, podemos refinar continuamente los mapeos de modelo, ya que es totalmente reconfigurable”, expresó Rodrigo Liang, CEO y fundador de SambaNova. “Esto no solo lleva a mejoras incrementales, sino a considerables avances en eficiencia y rendimiento a medida que el software evoluciona”.

Inicialmente, cuando se lanzó Llama 3, el equipo de Liang logró un rendimiento de 330 tokens por segundo en Samba-1. A través de optimizaciones exhaustivas en los últimos meses, esta velocidad se ha triplicado a 1,000 tokens por segundo. Liang explicó que la optimización implica equilibrar la distribución de recursos entre los núcleos para evitar cuellos de botella y maximizar el rendimiento total dentro de la tubería de la red neuronal, lo cual es similar al enfoque adoptado en el conjunto de software de SambaNova para ayudar a las empresas en sus esfuerzos de ajuste fino.

Calidad Empresarial y Mayor Velocidad

Liang enfatizó que SambaNova logra este hito de velocidad utilizando precisión de 16 bits, un estándar que garantiza la calidad que las empresas requieren.

Afirmó: “Hemos utilizado consistentemente precisión de 16 bits para nuestros clientes, ya que priorizan la calidad y la minimización de alucinaciones en los resultados”.

La importancia de la velocidad para los usuarios empresariales está creciendo a medida que las organizaciones adoptan cada vez más flujos de trabajo impulsados por agentes de IA. Además, los tiempos de generación más rápidos ofrecen ventajas económicas.

“Cuanto más rápido podamos generar respuestas, más recursos liberamos para que otros los utilicen”, observó. “En última instancia, esto conduce a una infraestructura más compacta y ahorros de costos”.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles