El Modelo ReALM de Apple Mejora la Inteligencia de Siri
El 2 de abril se informó que Apple avanza en su exploración de la inteligencia artificial con un nuevo modelo llamado ReALM, diseñado para mejorar significativamente las capacidades de Siri. Estudios recientes revelan que ReALM supera al reconocido modelo de lenguaje de OpenAI, GPT-4.0, aunque la capacidad de Siri para describir imágenes sigue siendo inconsistente en esta etapa.
Características Clave de ReALM
ReALM se destaca por su habilidad para comprender simultáneamente el contenido mostrado en la pantalla del usuario y las acciones que se están realizando. El modelo clasifica la información en tres tipos:
1. Entidades de Pantalla: Contenido actualmente visible en la pantalla del usuario.
2. Entidades de Diálogo: Información relacionada con conversaciones en curso, como los detalles de contacto de "Mamá" en el comando "Llama a Mamá".
3. Entidades de Fondo: Entidades no directamente relacionadas con el contenido o las acciones actuales del usuario, como la música que se está reproduciendo o una alarma próxima.
Si funciona a plena capacidad, ReALM haría a Siri significativamente más inteligente y útil. El equipo de investigación realizó una comparación de rendimiento entre ReALM y los modelos GPT-3.5 y GPT-4.0 de OpenAI, obteniendo hallazgos notables:
“Probamos ambos modelos de OpenAI, GPT-3.5 y GPT-4.0, proporcionándoles información contextual para predecir diversas entidades. GPT-3.5 solo procesa entradas de texto, mientras que GPT-4 puede entender datos de imagen, lo que mejora enormemente su capacidad para identificar entidades de pantalla.”
Resultados Impresionantes de ReALM
ReALM mostró un progreso notable en el reconocimiento de diferentes tipos de entidades. El modelo más pequeño logró más de un 5% de mejora en la precisión del reconocimiento de entidades de pantalla en comparación con el sistema original. Comparado con GPT-3.5 y GPT-4.0, nuestro modelo más pequeño se desempeñó de manera comparable a GPT-4.0, mientras que los modelos más grandes claramente lo superaron.
Una de las conclusiones del estudio es que, a pesar de tener significativamente menos parámetros que GPT-4, el rendimiento de ReALM es competitivo, especialmente al procesar comandos de usuario en contextos específicos, lo que lo convierte en un sistema de reconocimiento de entidades eficiente en el dispositivo.
Para Apple, el desafío radica en implementar eficazmente esta tecnología en los dispositivos sin comprometer el rendimiento. Con la conferencia de desarrolladores WWDC 2024 acercándose el 10 de junio, la industria espera con ansias que Apple presente sus nuevos avances en inteligencia artificial en iOS 18 y otros sistemas próximos.