Arize AI, un servicio de observabilidad, ha lanzado un nuevo producto diseñado para ayudar a las empresas a identificar cuándo los datos de entrada generan errores o alucinaciones en los modelos de lenguaje de gran tamaño (LLMs). Esta herramienta, dirigida a ingenieros de IA, proporciona información crítica necesaria para depurar sistemas complejos, a menudo aislando problemas derivados de solo unas pocas líneas de código.
Como explica Jason Lopatecki, cofundador y CEO de Arize, "todos somos ingenieros de prompts; hemos creado nuestros propios prompts. Muchas aplicaciones utilizan prompts en plantilla, que permiten su aplicación repetida a varios conjuntos de datos, facilitando mejores respuestas a las consultas de los usuarios. Sin embargo, estas plantillas dependen de variables de prompt extraídas de tu sistema, y hasta las más mínimas discrepancias en los datos pueden provocar alucinaciones o errores en las salidas de los LLM."
Es esencial monitorear las variables de prompt, especialmente en el contexto de chatbots de servicio y soporte al cliente impulsados por IA, donde la información incorrecta puede dañar la reputación de una marca. Aunque gestionar un único LLM puede simplificar el monitoreo, las empresas suelen utilizar múltiples modelos de proveedores como OpenAI, Google, Meta, Anthropic y Mistral, lo que hace que esta supervisión sea crucial.
Lopatecki destaca la desinformación como la principal causa de alucinaciones. Identificar la fuente de estos errores—si son los datos ingresados en el modelo, la plantilla de prompt seleccionada, o otros factores—es vital para realizar reparaciones efectivas en el sistema.
Entender la variabilidad también es fundamental. Se refiere al rango de salidas potenciales de los modelos de IA influenciadas por pequeños ajustes o entradas de datos erróneas. "El proceso de toma de decisiones no es solo un escenario de entrada-salida", aclara Lopatecki. "Las salidas de IA a menudo alimentan decisiones de IA posteriores, creando una red compleja donde las variaciones pueden convertirse en problemas significativos."
Para abordar estos desafíos, Arize está desarrollando herramientas específicamente para ingenieros de IA que son expertos en utilizar LLM avanzados para construir sistemas de IA sofisticados. "Estos ingenieros necesitan herramientas robustas para mejorar la inteligencia de sus aplicaciones. El papel del ingeniero de IA se volverá omnipresente en los próximos años", dice Lopatecki.
Lopatecki aspira a que Arize se convierta en el "Datadog de la IA", posicionándola como competidora del gigante del monitoreo en la nube, que ha incursionado en la supervisión de IA, incluido el soporte para modelos de OpenAI como GPT-4. Sin embargo, él cree que Arize tiene una ventaja: "A diferencia de Datadog, nosotros nacimos en el espacio de IA. El ritmo de la innovación es rápido, y ellos aún están desarrollando sus productos de IA."
Él enfatiza la urgencia de ofrecer soluciones efectivas de IA: "A medida que las empresas se apresuran a implementar, a menudo solo prueban escenarios limitados. La variabilidad y los problemas potenciales se vuelven evidentes una vez que estos sistemas operan en el mundo real, lo que lleva a numerosos desafíos imprevistos. La necesidad de herramientas efectivas de depuración ha alcanzado un punto crítico, y las empresas están comenzando a reconocer cuántas cosas pueden salir mal."