Tras Microsoft Build y Google I/O, Apple enfrentó grandes expectativas para presentar sus capacidades de IA en dispositivo en la Conferencia Mundial de Desarrolladores 2024. La compañía integró efectivamente la IA generativa en la experiencia del usuario en todos sus dispositivos, mostrando avances impresionantes en este ámbito.
Una característica destacada de las demostraciones de Apple fue el extenso procesamiento en dispositivo. Utilizando sus procesadores avanzados y una rica base de investigación abierta, Apple ofreció funcionalidades de IA de alta calidad y baja latencia en sus teléfonos y computadoras. Aquí te presentamos lo que aprendimos sobre la IA en dispositivo de Apple:
Visión General del Modelo de Apple
En la presentación del Estado de la Unión de Apple y en una publicación de blog del 10 de junio, se reveló que Apple utiliza un modelo de 3 mil millones de parámetros. Aunque no se divulgó el modelo base específico, la compañía presentó recientemente varios modelos abiertos, incluida la familia de modelos de lenguaje OpenELM, que cuenta con una versión de 3 mil millones de parámetros optimizada para dispositivos con recursos limitados.
OpenELM ha sido modificado para mejorar la calidad del modelo sin aumentar la cantidad de parámetros, lo que sugiere que el modelo base de Apple podría ser una variante especializada de OpenELM-3B. Este modelo fue entrenado con 1.8 billones de tokens de conjuntos de datos abiertos, incluidos datos licenciados y de dominio público recopilados por AppleBot.
Socios de Datos Licenciados
Apple ha establecido alianzas para datos licenciados, incluidas negociaciones por un acuerdo de 25 a 50 millones de dólares con Shutterstock para imágenes, y un posible acuerdo de 50 millones de dólares con importantes organizaciones de noticias y publicaciones.
Técnicas de Entrenamiento y Optimización
El modelo ha sido ajustado para seguir instrucciones de manera efectiva mediante el aprendizaje por refuerzo con retroalimentación humana (RLHF) y un algoritmo de ajuste fino de muestreo de rechazo que involucra un comité de profesores. RLHF utiliza datos anotados por humanos para afinar modelos de lenguaje según las preferencias del usuario, ganando popularidad con el lanzamiento de ChatGPT. El muestreo de rechazo genera múltiples ejemplos de entrenamiento, seleccionando el mejor resultado para las actualizaciones del modelo, una técnica también empleada por el equipo de Llama-2.
Optimizaciones Técnicas
Apple implementó diversas técnicas para mejorar el rendimiento del modelo manteniendo la eficiencia de recursos. El modelo base utiliza "atención por consultas agrupadas" (GQA), desarrollada por Google Research, para acelerar la velocidad de inferencia con un impacto mínimo en memoria y computación. Además, se utiliza "paletización" para comprimir pesos mediante tablas de consulta, junto con cuantización, que reduce el número de bits por parámetro.
Los modelos están optimizados para dispositivos con chips M1 y versiones posteriores, y los iPhone 15 Pro y Pro Max que cuentan con el chip A17 Pro. Esto sugiere la utilización de técnicas de optimización adaptadas a los chips de Apple, como el modelo de lenguaje grande (LLM) en flash introducido el año pasado.
Métricas de Rendimiento
Los resultados reportados en un iPhone 15 Pro muestran una latencia de primer token de aproximadamente 0.6 milisegundos por token de solicitud, con una tasa de generación de 30 tokens por segundo. Por ejemplo, enviar un aviso de 1,000 tokens generaría una respuesta en 0.6 segundos, generando posteriormente tokens a una tasa de 30 por segundo, demostrando así un rendimiento impresionante.
Personalización con Adaptación de Bajo Rango
Para mejorar la funcionalidad sin duplicar el modelo, los ingenieros de Apple desarrollaron versiones ajustadas utilizando adaptadores de adaptación de bajo rango (LoRA). LoRA actualiza un pequeño subconjunto de pesos para tareas específicas, y los adaptadores—cada uno con menos de 100 megabytes—permiten a los dispositivos almacenar múltiples opciones para diversas funciones como corrección, resumir y respuestas a correos electrónicos.
Evaluación del Rendimiento
Según las evaluaciones de Apple, su modelo generalmente supera a modelos de tamaño similar e incluso mayores, incluidos Gemma-2B, Mistral-7B y Phi-3B-Mini.
En resumen, la IA en dispositivo de Apple ilustra el potencial de combinar modelos compactos con técnicas de optimización efectivas, datos de calidad y hardware robusto. La compañía ha logrado avances significativos en equilibrar la precisión con la experiencia del usuario. Será interesante ver cómo se desempeña esta tecnología cuando se implemente para los consumidores este otoño.