Desde la publicación del innovador artículo de investigación "Attention is All You Need" en 2017, los transformers han dominado el panorama de la IA generativa. Sin embargo, no son el único enfoque viable en este ámbito. AI21 Labs ha presentado un nuevo marco llamado "Jamba," que busca avanzar más allá de los transformers tradicionales.
Jamba combina el modelo Mamba, basado en el Modelo de Espacio de Estados Estructurado (SSM), con la arquitectura de transformers para crear una solución de IA generativa optimizada. El término "Jamba" significa Arquitectura de Atención Conjunta y Mamba, diseñada para aprovechar las fortalezas tanto del SSM como de los transformers. Este modelo se lanza como código abierto bajo la licencia Apache 2.0.
Aunque Jamba no reemplazará a los grandes modelos de lenguaje (LLMs) basados en transformers, se espera que funcione como un complemento valioso en aplicaciones específicas. AI21 Labs afirma que Jamba puede superar a los modelos de transformers tradicionales en tareas de razonamiento generativo, como lo demuestran los benchmarks de HellaSwag. Sin embargo, aún no supera a los modelos de transformers en benchmarks críticos como el Massive Multitask Language Understanding (MMLU), que evalúa las capacidades de resolución de problemas.
AI21 Labs se especializa en IA generativa para aplicaciones empresariales y recientemente recaudó 155 millones de dólares en agosto de 2023 para impulsar sus iniciativas. Entre sus ofertas empresariales se encuentra Wordtune, una herramienta diseñada para ayudar a las organizaciones a generar contenido que se alinee con su tono y branding. La compañía informó en 2023 que ha competido exitosamente contra el gigante de IA generativa OpenAI para asegurar clientes empresariales.
Tradicionalmente, la tecnología LLM de AI21 Labs ha utilizado la arquitectura de transformers, incluyendo la familia Jurassic-2 LLM, que forma parte de la plataforma de procesamiento de lenguaje natural (NLP) AI21 Studio y está disponible a través de APIs para integración empresarial. Sin embargo, Jamba representa un cambio hacia un modelo híbrido de SSM y transformers.
A pesar del papel prominente de los transformers en la IA generativa, presentan ciertas limitaciones. Un problema significativo es que, a medida que se amplían las ventanas de contexto, la inferencia tiende a ralentizarse. Como explican los investigadores de AI21 Labs, el mecanismo de atención de un transformer escala con la longitud de la secuencia, lo que reduce el rendimiento, ya que cada token depende de toda la secuencia anterior. Esto hace que las aplicaciones de contexto largo sean ineficientes.
Otro desafío implica la considerable huella de memoria necesaria para escalar los transformers. Sus requisitos de memoria crecen con la longitud del contexto, complicando el procesamiento de contextos largos o múltiples tareas paralelas sin recursos de hardware significativos. El enfoque SSM busca abordar estas preocupaciones de contexto y memoria.
La arquitectura Mamba SSM, desarrollada originalmente por investigadores de las universidades de Carnegie Mellon y Princeton, está diseñada para requerir menos memoria y utilizar un mecanismo de atención diferente para gestionar grandes ventanas de contexto. Sin embargo, enfrenta dificultades para alcanzar la misma calidad de salida que los modelos de transformers. El enfoque híbrido de Jamba combina la optimización de recursos y contexto del SSM con las capacidades de salida de los transformers.
AI21 Labs afirma que el modelo Jamba presenta una ventana de contexto de 256K y ofrece un rendimiento tres veces mayor en contextos largos en comparación con Mixtral 8x7B. Notablemente, Jamba se posiciona como el único modelo en su clase de tamaño capaz de manejar hasta 140K de contexto en una sola GPU.
Al igual que Mixtral, Jamba incorpora un modelo Mixture of Experts (MoE). Sin embargo, Jamba utiliza el MoE dentro de su marco híbrido SSM-transformer, permitiendo niveles más altos de optimización. En específico, las capas MoE de Jamba activan solo 12 mil millones de sus 52 mil millones de parámetros disponibles durante la inferencia, lo que lo hace más eficiente que un modelo exclusivo de transformers de tamaño equivalente, según AI21 Labs.
Actualmente, Jamba se encuentra en sus primeras etapas y aún no forma parte de las ofertas empresariales de AI21 Labs, aunque la compañía planea lanzar una versión instructiva en la Plataforma AI21 en beta pronto.