En el Mobile World Congress 2024, Qualcomm está ampliando su portafolio de capacidades de inteligencia artificial impulsadas por la serie Snapdragon para dispositivos Android. La compañía ya ha presentado impresionantes características de IA para el buque insignia Snapdragon 8 Gen 3, que incluyen la edición de medios activada por voz, la generación de imágenes en el dispositivo con Stable Diffusion y un asistente virtual avanzado que aprovecha grandes modelos de lenguaje de Meta.
Hoy, Qualcomm introdujo mejoras a estas funcionalidades de IA. Una característica clave es el nuevo Asistente de Lenguaje y Visión Grande (LLaVa), diseñado específicamente para smartphones. Esta herramienta innovadora funciona como un chatbot, similar a ChatGPT, pero integra capacidades de Google Lens. Como resultado, la solución de Qualcomm puede procesar tanto entradas de texto como imágenes.
Por ejemplo, puedes subir una foto de una tabla de charcutería y preguntar sobre su contenido. El asistente de IA, construido sobre un modelo multimodal grande (LMM) que procesa más de 7 mil millones de parámetros, identificará diversas frutas, quesos, carnes y nueces presentes en la imagen. También puede manejar preguntas de seguimiento, permitiendo un flujo de conversación natural. Aunque ChatGPT y productos similares también han agregado capacidades multimodales, dependen de una arquitectura en la nube, que involucra servidores remotos para el procesamiento de datos. El enfoque de Qualcomm se centra en el procesamiento en el dispositivo, asegurando respuestas más rápidas y una mayor privacidad, con un riesgo mínimo de intrusión de datos. Qualcomm enfatiza: "Este LMM funciona a una tasa de respuesta rápida en el dispositivo, lo que lleva a una mayor privacidad, fiabilidad, personalización y eficiencia de costos". Los detalles sobre si el asistente virtual basado en LLaVa de Qualcomm se lanzará como una aplicación independiente o si tendrá un costo aún no han sido confirmados.
El siguiente anuncio significativo de Qualcomm se centra en los aspectos creativos de la generación y manipulación de imágenes. Recientemente, Qualcomm demostró la generación de imágenes de texto a imagen más rápida del mundo en un smartphone utilizando tecnología de Stable Diffusion. Hoy, la compañía ofreció un avance sobre la generación de imágenes impulsada por LoRA.
LoRA, o Adaptación de Bajo Rango, es una técnica novedosa desarrollada por Microsoft que ofrece un enfoque diferente a la generación de imágenes en comparación con herramientas tradicionales de IA generativa como DALL·E. Entrenar modelos de IA puede ser costoso, lento y requerir mucho hardware. LoRA aborda estos desafíos al reducir significativamente el peso del modelo, concentrándose en segmentos específicos y limitando el número de parámetros durante el proceso de entrenamiento. Esto resulta en menores requisitos de memoria y operaciones más rápidas, agilizando dramáticamente la adaptación de modelos de texto a imagen.
El método de destilación LoRA se ha incorporado eficazmente en el modelo Stable Diffusion para generar imágenes a partir de textos. Gracias a su eficiencia y facilidad de adaptación, LoRA se considera bien adecuado para smartphones. Qualcomm confía en su potencial, e incluso la competencia MediaTek está adoptando este enfoque para características de IA generativa en su chip buque insignia Dimensity 9300.
En MWC 2024, Qualcomm también está exhibiendo una variedad de características de IA, algunas de las cuales ya están disponibles en el Samsung Galaxy S24 Ultra. Entre estas capacidades se encuentran la posibilidad de expandir el lienzo de una imagen utilizando llenado de IA generativa y la generación de videos impulsada por IA, lo cual es particularmente ambicioso. Será intrigante ver cómo Qualcomm implementa con éxito estas tecnologías avanzadas en smartphones.