Investigadores de Apple han presentado un avanzado sistema de inteligencia artificial que mejora la comprensión de los asistentes de voz sobre referencias ambiguas y el contexto circundante, facilitando interacciones más naturales. Esta innovación, detallada en un artículo publicado el viernes, se llama ReALM (Resolución de Referencias como Modelado del Lenguaje).
ReALM utiliza grandes modelos de lenguaje para transformar la compleja tarea de resolución de referencias —incluida la identificación de elementos visuales en la pantalla— en un desafío de modelado del lenguaje. Este cambio resulta en mejoras significativas del rendimiento en comparación con los métodos actuales.
"Entender el contexto, incluidas las referencias, es esencial para un asistente conversacional", afirmó el equipo de investigación. "Permitir que los usuarios consulten el contenido visible en pantalla es vital para lograr una experiencia auténtica de manos libres con los asistentes de voz."
Mejorando los Asistentes Conversacionales
Una característica destacada de ReALM es su capacidad para reconstruir los elementos visuales en pantalla utilizando entidades analizadas y sus posiciones, generando una representación textual que coincide con el diseño visual. El equipo demostró que este método, combinado con un ajuste especializado de modelos de lenguaje para la resolución de referencias, supera el rendimiento de GPT-4.
El sistema de IA de Apple, ReALM, puede interpretar eficazmente referencias a elementos en pantalla, como la lista de “260 Sample Sale” en un prototipo, promoviendo interacciones más enriquecedoras con los asistentes de voz.
"Mostramos mejoras significativas sobre los sistemas existentes para manejar varios tipos de referencias, con nuestro modelo más pequeño logrando más de un 5% de mejora en la precisión de referencias en pantalla", señalaron los investigadores. "Nuestros modelos más grandes superan considerablemente a GPT-4."
Aplicaciones Prácticas y Limitaciones
Esta investigación enfatiza el potencial de los modelos de lenguaje enfocados para realizar tareas como la resolución de referencias en entornos de producción donde los modelos grandes de extremo a extremo pueden no ser prácticos debido a restricciones de latencia o computacionales. Al compartir estos hallazgos, Apple reafirma su compromiso de mejorar las capacidades conversacionales y de contexto de Siri y otros productos.
Sin embargo, el equipo reconoce los desafíos del análisis automatizado de pantallas. Abordar referencias visuales complejas —como diferenciar entre múltiples imágenes— puede requerir la integración de técnicas de visión por computadora y multimodales.
Las Ambiciones de Apple en IA
Apple está avanzando rápidamente en la investigación de inteligencia artificial, aunque actualmente se encuentra rezagada frente a la competencia en la carrera por la dominación en IA. Sus recientes avances abarcan desde modelos multimodales que integran datos visuales y lingüísticos hasta herramientas de animación impulsadas por IA.
A pesar de ser conocida por su enfoque cauteloso, Apple enfrenta una feroz competencia de Google, Microsoft, Amazon y OpenAI, todos los cuales han integrado agresivamente IA generativa en sus ofertas.
A medida que el panorama de la IA evoluciona rápidamente, Apple se encuentra en una posición desafiante. Se espera con anticipación la próxima Conferencia Mundial de Desarrolladores, donde se prevé que la compañía presente un nuevo marco de modelos de lenguaje grande, denominado “Apple GPT”, junto con características adicionales impulsadas por IA en su línea de productos.
El CEO Tim Cook insinuó durante una llamada de ganancias que se compartirán detalles sobre las iniciativas de IA en curso de Apple más adelante este año. Aunque la estrategia de la compañía sigue siendo discreta, el alcance de sus esfuerzos en IA está evidentemente en expansión.
A medida que la competencia por el liderazgo en IA se intensifica, la entrada tardía de Apple la ha colocado bajo presión competitiva. Sin embargo, sus vastos recursos, lealtad de marca, ingeniería superior y cartera de productos integrada brindan una ventaja potencial.
Una nueva era de computación inteligente está en el horizonte. En junio, seremos testigos de si Apple se ha preparado lo suficientemente bien para influir en esta transformación.