El equipo de investigación de Apple presenta un sistema de IA con la capacidad de 'visión' para comprender el contenido de la pantalla.

Los investigadores de Apple han desarrollado un sistema de inteligencia artificial innovador llamado ReALM (Resolución de Referencias como Modelado de Lenguaje) que mejora la interpretación de referencias vagas y el contexto del diálogo por parte de los asistentes digitales, facilitando interacciones más naturales. Este avance pionero fue anunciado recientemente.

ReALM aprovecha los modelos de lenguaje de gran tamaño para transformar tareas complejas de resolución de referencias—como la comprensión de elementos visuales en pantalla—en desafíos de modelado de lenguaje. Según el equipo de investigación de Apple, este enfoque supera significativamente a los métodos tradicionales. "Comprender el contexto y las referencias es crucial para los asistentes conversacionales. Permitir que los usuarios consulten el contenido en pantalla es un paso clave hacia una experiencia verdaderamente manos libres", comentaron.

Uno de los principales avances de ReALM en la resolución de referencias es su capacidad para reposicionar entidades en pantalla utilizando análisis de localización, generando una representación textual que mantiene el diseño visual. Las pruebas indicaron que este método, combinado con modelos de lenguaje específicamente afinados para la resolución de referencias, superó el rendimiento de GPT-4. Los investigadores afirmaron: "Nuestro sistema mejoró drásticamente el rendimiento en varios tipos de referencias, logrando más de un 5% de aumento absoluto en tareas que involucraban referencias en pantalla con el modelo más pequeño, mientras que el modelo más grande superó significativamente a GPT-4".

Este estudio resalta el potencial de los modelos de lenguaje especializados para abordar tareas de resolución de referencias. En escenarios prácticos, el despliegue de modelos masivos de extremo a extremo puede ser poco factible debido a restricciones de latencia o computacionales. Los hallazgos demuestran el compromiso continuo de Apple por mejorar las capacidades conversacionales y la comprensión contextual de Siri y otros productos.

Sin embargo, los investigadores advirtieron que el análisis automático de la pantalla tiene sus limitaciones. Abordar referencias visuales más complejas—como distinguir entre múltiples imágenes—puede requerir la integración de visión por computadora y tecnologías multimodales.

Apple ha avanzado discretamente en el ámbito de la inteligencia artificial, aunque todavía se queda atrás de los competidores en este mercado en constante evolución. Los laboratorios de investigación de la compañía están innovando continuamente en modelos multimodales, herramientas impulsadas por IA y tecnologías de IA especializadas de alto rendimiento, lo que refleja su ambición en el sector de la inteligencia artificial.

Se intensifica la expectativa para la próxima Conferencia Mundial de Desarrolladores en junio, donde se espera que Apple presente nuevos marcos de grandes modelos de lenguaje, un chatbot "Apple GPT" y otras funcionalidades de IA dentro de su ecosistema, buscando adaptarse rápidamente a las dinámicas del mercado.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles