Desarrollando Soluciones con Modelos de IA Generativa
Llevamos más de un año explorando modelos de IA generativa. Inicialmente centrados en modelos de lenguaje grandes (LLMs), ahora estamos viendo el auge de modelos multimodales capaces de comprender y generar imágenes y videos, haciendo que "modelo base" (FM) sea un término más adecuado.
A medida que el campo evoluciona, identificamos patrones para implementar estas soluciones de manera efectiva y crear un impacto significativo al adaptar la información para satisfacer diversas necesidades. Se presentan numerosas oportunidades transformadoras que prometen aumentar la complejidad y el valor derivados de los LLMs, aunque estos avances requerirán una gestión cuidadosa de costos.
Entendiendo los Modelos Base
Para aprovechar los FMs de manera efectiva, debemos comprender su funcionamiento interno. Estos modelos transforman palabras, imágenes, números y sonidos en tokens, prediciendo el "siguiente token" más relevante para involucrar a los usuarios. La retroalimentación del último año ha refinado los modelos centrales desarrollados por Anthropic, OpenAI, Mixtral y Meta, alineándolos estrechamente con las expectativas de los usuarios.
El reconocimiento de la importancia del formato de tokens ha llevado a una mejora en el rendimiento; por ejemplo, YAML suele superar a JSON. La comunidad ha desarrollado técnicas de "ingeniería de prompts" para mejorar las respuestas de los modelos. Por ejemplo, el uso de "few-shot prompting" proporciona ejemplos para guiar la salida del modelo, mientras que los prompts de cadena de pensamiento pueden llevar a respuestas más completas para consultas complejas. Muchos usuarios activos de servicios de chat de IA generativa probablemente han notado estas mejoras.
Avances en las Capacidades de LLM
Expandir la capacidad de procesamiento de información de los LLMs es fundamental para su progreso. Los modelos de vanguardia pueden manejar hasta 1 millón de tokens, equivalente a un manual universitario completo, permitiendo a los usuarios controlar la relevancia contextual como nunca antes.
Por ejemplo, utilizando Claude de Anthropic, ayudé a un médico a navegar un complejo documento de guía de 700 páginas, logrando una tasa de precisión del 85% en exámenes de ingreso relacionados. Además, las tecnologías que recuperan información basándose en conceptos en lugar de palabras clave enriquecen aún más la base de conocimientos.
Los modelos de embedding emergentes, como titan-v2 y cohere-embed, permiten la recuperación de texto relacionado al convertir diversas fuentes en vectores derivados de amplios conjuntos de datos. Innovaciones como la integración de consultas vectoriales en sistemas de bases de datos y bases de datos vectoriales especializadas como Turbopuffer están habilitando la escalabilidad para colecciones masivas de documentos con una mínima pérdida de rendimiento.
A pesar de estos avances, escalar soluciones sigue siendo un desafío, requiriendo colaboración entre diversas disciplinas para optimizar seguridad, escalabilidad, latencia, eficiencia de costos y calidad de respuesta en aplicaciones de LLM.
Innovando con Gen 2.0 y Sistemas de Agentes
Mientras las recientes mejoras aumentan el rendimiento de los modelos y la viabilidad de las aplicaciones, estamos a las puertas de una nueva evolución: la integración de múltiples funcionalidades de IA generativa.
La fase inicial implica crear cadenas de acciones manuales—como el sistema ARIA de BrainBox.ai, que interpreta imágenes de fallos de equipos, accede a bases de conocimientos relevantes y consulta flujos de datos IoT para sugerir soluciones. Sin embargo, estos sistemas enfrentan limitaciones en su lógica, necesitando definiciones codificadas por los desarrolladores o restringiéndose a caminos de toma de decisiones simples.
La fase siguiente, Gen AI 2.0, imagina sistemas ágiles basados en agentes que utilizan modelos multimodales, impulsados por un motor de razonamiento (típicamente un LLM). Estos agentes descompondrán problemas en pasos manejables y seleccionarán herramientas impulsadas por IA para su ejecución, adaptando su enfoque según los resultados en cada etapa.
Este enfoque modular mejora la flexibilidad, permitiendo que los sistemas aborden tareas complejas. Por ejemplo, Devin.ai de Cognition Labs podría automatizar tareas de programación de extremo a extremo, reduciendo la intervención humana extensa y completando procesos rápidamente, mientras que Q for Developers de Amazon facilita las actualizaciones automáticas de Java.
En el sector salud, un sistema de agentes médicos podría sintetizar datos de registros electrónicos de salud (EHR), imágenes, información genética y literatura clínica, generando recomendaciones de tratamiento completas. Además, múltiples agentes especializados podrían colaborar para crear perfiles detallados de pacientes y ejecutar de forma autónoma procesos de conocimiento en múltiples pasos, reduciendo la necesidad de supervisión humana.
Sin embargo, estos sistemas avanzados pueden incurrir en costos significativos debido a las diversas llamadas a la API de LLM que transmiten grandes volúmenes de tokens. Por lo tanto, los avances paralelos en la optimización de LLM—que abarcan hardware (por ejemplo, NVIDIA Blackwell), frameworks (Mojo), nube (AWS Spot Instances) y configuraciones de modelos (tamaño de parámetros, cuantificación)—son esenciales para gestionar los costos de manera efectiva.
Conclusión
A medida que las organizaciones evolucionan en su implementación de LLMs, el enfoque se desplazará hacia alcanzar resultados de alta calidad de manera rápida y eficiente. Dado el rápido ritmo de cambio, es crucial asociarse con un equipo experimentado en la optimización de soluciones de IA generativa para asegurar el éxito.