Descubre Maxim: Tu Plataforma Integral de Evaluación para Abordar los Desafíos de Calidad en la IA

Las empresas son optimistas respecto a la inteligencia artificial generativa, invirtiendo miles de millones en el desarrollo de aplicaciones que abarcan desde chatbots hasta herramientas de búsqueda para diversos casos de uso. Aunque casi todas las grandes compañías tienen una iniciativa de IA generativa en marcha, existe una distinción crítica entre comprometerse con la IA y desplegarla con éxito en producción.

Hoy, la startup californiana Maxim, fundada por los exejecutivos de Google y Postman Vaibhavi Gangwar y Akshay Deo, presentó una plataforma de evaluación y observación de extremo a extremo diseñada para abordar esta brecha. La empresa también anunció una financiación de 3 millones de dólares de Elevation Capital y otros inversores ángeles.

Maxim aborda un desafío significativo que enfrentan los desarrolladores al crear aplicaciones de IA impulsadas por modelos de lenguaje grande (LLM): monitorear los diversos componentes a lo largo del ciclo de vida del desarrollo. Incluso pequeños errores pueden socavar la confiabilidad del proyecto, lo que genera retrasos en la entrega. La plataforma de Maxim se enfoca en probar y mejorar la calidad y seguridad de la IA tanto antes del lanzamiento como después de la producción, estableciendo un estándar que ayuda a las organizaciones a optimizar su ciclo de vida de aplicaciones de IA y entregar productos de alta calidad rápidamente.

Desafíos en el Desarrollo de Aplicaciones de IA Generativa

Históricamente, el desarrollo de software seguía un enfoque determinista con prácticas estandarizadas para pruebas e iteración, lo que permitía a los equipos seguir caminos claros para mejorar la calidad y seguridad. Sin embargo, la introducción de la IA generativa ha generado numerosas variables, resultando en un paradigma no determinista. Los desarrolladores deben gestionar diversos elementos, desde el modelo utilizado hasta la formulación de datos y preguntas de usuario, asegurando calidad, seguridad y rendimiento.

Las organizaciones generalmente responden a estos desafíos de evaluación de dos maneras principales: contratando talento para supervisar cada variable o desarrollando herramientas internas, ambas opciones que pueden aumentar costos y desviar atención de las funciones comerciales centrales.

Reconociendo esta necesidad, Gangwar y Deo fundaron Maxim para cerrar la brecha entre las capas de modelo y aplicación de la pila de IA generativa. La plataforma proporciona una evaluación integral a lo largo del ciclo de vida del desarrollo de IA, desde la ingeniería de prompts y pruebas previas al lanzamiento hasta el monitoreo y optimización post-lanzamiento.

Gangwar describe la plataforma de Maxim como compuesta por cuatro componentes principales: un conjunto de experimentación, una caja de herramientas para evaluación, observabilidad y un motor de datos.

El conjunto de experimentación incluye un CMS de prompts, IDE, constructor de flujos de trabajo visual y conectores a fuentes de datos externas, permitiendo a los equipos iterar de manera efectiva en prompts, modelos y parámetros. Por ejemplo, los equipos pueden experimentar con diferentes prompts en varios modelos para un chatbot de atención al cliente.

La caja de herramientas de evaluación ofrece un marco unificado para evaluaciones impulsadas por IA y humanas, permitiendo a los equipos evaluar cuantitativamente mejoras o regresiones mediante pruebas exhaustivas. Los resultados se visualizan en tableros que cubren métricas como tono, precisión, toxicidad y relevancia.

La observabilidad es clave en la fase post-lanzamiento, permitiendo la supervisión en tiempo real de registros de producción y evaluaciones automatizadas para identificar y resolver problemas en vivo, asegurando que se cumplan los estándares de calidad.

Según Gangwar, "Los usuarios pueden establecer controles automatizados para diversas señales de calidad, seguridad y riesgo en los registros de producción. También pueden configurar alertas en tiempo real para regresiones en métricas que son más relevantes, como rendimiento, costo y calidad."

Utilizando información del conjunto de observabilidad, los usuarios pueden abordar rápidamente los problemas. Si la calidad de los datos es una preocupación, el motor de datos permite una curación y enriquecimiento sin problemas de conjuntos de datos para ajustar.

Despliegues Acelerados de Aplicaciones

Aunque aún está en sus primeras etapas, Maxim afirma haber asistido a "varias docenas" de socios iniciales en pruebas, iteraciones y despliegue de sus productos de IA a una velocidad cinco veces más rápida que antes, enfocándose en sectores como tecnología B2B, servicios de IA generativa, BFSI y Edtech, industrias donde los desafíos de evaluación son particularmente agudos. A medida que la empresa amplíe sus operaciones, planea mejorar las capacidades de la plataforma, centrándose en clientes de mercado medio y grandes empresas.

La plataforma de Maxim también incluye características centradas en la empresa, como controles de acceso basados en roles, cumplimiento normativo, colaboración en equipo y opciones de despliegue en una nube privada virtual.

Si bien el enfoque de Maxim hacia pruebas y evaluaciones estandarizadas es notable, enfrenta desafíos para competir con rivales bien financiados como Dynatrace y Datadog, que evolucionan continuamente sus ofertas.

Gangwar menciona que muchos competidores se enfocan en el monitoreo de rendimiento, calidad u observabilidad, mientras que Maxim busca consolidar todas las necesidades de evaluación en una única plataforma integrada.

"El ciclo de vida del desarrollo requiere una gestión holística de las necesidades relacionadas con las pruebas, lo que creemos impulsará mejoras significativas en productividad y calidad para aplicaciones sostenibles," afirma.

De cara al futuro, Maxim tiene la intención de expandir su equipo y capacidades operativas mientras forja más alianzas con empresas enfocadas en el desarrollo de productos de IA. Las futuras mejoras pueden incluir evaluaciones específicas de dominio para calidad y seguridad, así como el desarrollo de un motor de datos multimodal.

Most people like

Find AI tools in YBX