A medida que las organizaciones empresariales avanzan hacia un futuro más autónomo, la arquitectura de los modelos de IA representa un desafío importante. Ori Goshen, CEO de AI21, subraya la necesidad de arquitecturas de modelos alternativas para crear agentes de IA más eficientes, ya que los modelos Transformer actuales presentan limitaciones que dificultan la creación de un ecosistema de múltiples agentes.
En una reciente entrevista, Goshen destacó las desventajas de la arquitectura Transformer: su intensidad computacional aumenta al manejar contextos más largos, lo que ralentiza el rendimiento y eleva los costos. "Los agentes requieren múltiples llamadas a LLMs con contextos extensos en cada paso, lo que convierte a Transformer en un cuello de botella", observó.
AI21 aboga por un enfoque más flexible en la arquitectura de modelos, proponiendo que, aunque los Transformers pueden ser una opción viable, no deberían ser la norma. La arquitectura JAMBA—en inglés Joint Attention and Mamba—aprovecha el marco Mamba desarrollado por investigadores de Princeton y Carnegie Mellon para mejorar la velocidad de inferencia y ampliar las capacidades de contexto.
Goshen explica que los modelos basados en Mamba mejoran el rendimiento de la memoria, lo que facilita una mejor funcionalidad para los agentes, especialmente aquellos que se integran con otros modelos. El reciente aumento en la popularidad de los agentes de IA se debe en gran medida a las limitaciones de los LLMs construidos con Transformers.
"La principal razón por la que los agentes siguen en desarrollo—y aún no han visto una producción generalizada—es la fiabilidad. Dado que los LLMs son inherentemente estocásticos, deben implementarse medidas adicionales para garantizar la fiabilidad necesaria," afirmó Goshen.
Este año, los agentes de IA se han consolidado como una tendencia líder en la IA empresarial, con varias empresas lanzando nuevas plataformas para el desarrollo de agentes. Por ejemplo, ServiceNow mejoró su plataforma Now Assist AI para incluir una biblioteca de agentes de IA, mientras que Salesforce presentó su Agentforce. A su vez, Slack permite a los usuarios integrar agentes de diversas empresas, incluidas Salesforce, Cohere y Adobe.
Goshen confía en que, con la combinación adecuada de modelos y arquitecturas, el interés por los agentes de IA aumentará. "Los casos de uso actuales, como las funciones de preguntas y respuestas de chatbots, se asemejan principalmente a una búsqueda mejorada. La verdadera inteligencia radica en la capacidad de conectar y recuperar información diversa de múltiples fuentes," comentó. AI21 está desarrollando activamente sus ofertas en torno a los agentes de IA para satisfacer esta demanda.
A medida que la arquitectura Mamba gana aceptación, Goshen sigue siendo un firme defensor, afirmando que el costo y la complejidad de los Transformers reducen sus aplicaciones prácticas. A diferencia de los Transformers, que dependen de un mecanismo de atención fijo, Mamba se centra en optimizar el uso de memoria y aprovechar efectivamente la potencia de procesamiento de la GPU.
La demanda de Mamba está en aumento, con otros desarrolladores lanzando modelos basados en Mamba, como el Codestral Mamba 7B de Mistral y el Falcon Mamba 7B de Falcon. Sin embargo, los Transformers continúan dominando como la opción estándar para modelos base, incluidos el exitoso GPT de OpenAI.
En última instancia, Goshen señala que las empresas priorizan la fiabilidad sobre cualquier arquitectura específica. Sin embargo, las organizaciones deben ser cautelosas con las demostraciones tentadoras que prometen soluciones extensas. "Estamos en una fase donde las demostraciones cautivadoras son comunes, pero aún estamos en transición hacia una fase de productos aplicables," advirtió. "Si bien la IA empresarial es valiosa para la investigación, aún no está lista para informar decisiones críticas de negocio."