На Mobile World Congress 2024 Qualcomm расширяет портфель возможностей ИИ, работающий на базе серии Snapdragon для устройств Android. Компания уже представила впечатляющие функции ИИ для флагманского Snapdragon 8 Gen 3, включая редактирование медиа с голосовым управлением, генерацию изображений на устройстве с помощью Stable Diffusion и продвинутый виртуальный помощник, использующий большие языковые модели от Meta.
Сегодня Qualcomm анонсировала улучшения этих ИИ-функциональностей. Ключевой особенностью стал новый помощник с поддержку больших языковых моделей и зрения (LLaVa), разработанный специально для смартфонов. Этот инновационный инструмент работает как чат-бот, аналогичный ChatGPT, но интегрирует возможности Google Lens. В результате решение от Qualcomm может обрабатывать как текстовые запросы, так и изображения.
Например, вы можете загрузить фото закусочной тарелки и узнать о ее содержимом. ИИ-помощник, основанный на многомодальной модели (LMM), обрабатывающей более 7 миллиардов параметров, определит различные фрукты, сыры, мясные изделия и орехи, представленные на снимке. Он также способен отвечать на дополнительные вопросы, обеспечивая естественный диалог. В то время как ChatGPT и подобные продукты также добавили многомодальные возможности, они зависят от облачной архитектуры, что приводит к обработке данных на удаленных серверах. Подход Qualcomm сосредоточен на обработке данных непосредственно на устройстве, что обеспечивает более быстрые ответы и улучшенную конфиденциальность с минимальным риском утечки данных. Qualcomm подчеркивает: «Эта LMM работает с высокой скоростью на устройстве, что приводит к повышенной конфиденциальности, надежности, персонализации и экономии затрат». Пока не подтверждены детали о том, будет ли виртуальный помощник на базе LLaVa запущен как отдельное приложение или потребует платы.
Следующее важное объявление от Qualcomm касается креативных аспектов генерации и манипуляции изображениями. На прошлой неделе компания продемонстрировала самое быстрое в мире преобразование текста в изображение на смартфоне с использованием технологии Stable Diffusion. Сегодня Qualcomm представила предварительный просмотр генерации изображений на основе LoRA.
LoRA, или Low-Rank Adaptation, — это новая методика, разработанная Microsoft, которая предлагает иной подход к генерации изображений по сравнению с традиционными инструментами генеративного ИИ, такими как DALL·E. Обучение ИИ-моделей может быть дорогостоящим, длительным и требовательным к аппаратным ресурсам. LoRA решает эти проблемы, значительно уменьшая вес модели, сосредотачиваясь на конкретных сегментах и ограничивая количество параметров во время процесса обучения. Это приводит к снижению требований к памяти и ускорению операций, что значительно упрощает адаптацию моделей преобразования текста в изображение.
Метод дистилляции LoRA эффективно интегрирован в модель Stable Diffusion для генерации изображений на основе текстовых запросов. Благодаря своей эффективности и легкости адаптации LoRA подходит для использования на смартфонах. Qualcomm верит в его потенциал, и даже конкурент MediaTek применяет этот подход для генеративных ИИ-функций на своем флагманском чипе Dimensity 9300.
На MWC 2024 Qualcomm также демонстрирует разнообразные ИИ-возможности, некоторые из которых уже доступны на Samsung Galaxy S24 Ultra. Среди этих функций — возможность расширения холста изображения с помощью генеративного заполнения и генерация видео с использованием ИИ, что является особенно амбициозным шагом. Будет интересно посмотреть, как Qualcomm успешно внедрит эти передовые технологии в смартфоны.