Liquid AI, стартап, основанный бывшими исследователями MIT из Лаборатории компьютерных наук и искусственного интеллекта (CSAIL), представил свои первые мультимодальные AI-модели: Liquid Foundation Models (LFM).
В отличие от многих современных генеративных AI-моделей на основе архитектуры трансформеров, особенно известной модели 2017 года "Attention Is All You Need", Liquid AI стремится исследовать альтернативы Generative Pre-trained Transformers (GPT). Модели LFM созданы с использованием "первичных принципов", аналогично тому, как инженеры создают двигатели и самолеты.
Эти инновационные LFM демонстрируют превосходные результаты по сравнению с аналогичными моделями на основе трансформеров, такими как Llama 3.1-8B от Meta и Phi-3.5 3.8B от Microsoft. Доступные в трех размерах — LFM 1.3B (малый), LFM 3B и большой LFM 40B MoE (модель Mixture-of-Experts) — модели имеют разное количество параметров, что обозначается буквой "B" для миллиарда. Обычно, более высокое количество параметров указывает на большую способность выполнять различные задачи.
Версия LFM 1.3B уже превзошла Llama 3.2-1.2B от Meta и Phi-1.5 от Microsoft по нескольким сторонним тестам, включая Massive Multitask Language Understanding (MMLU), что является значительным достижением для модели, не основанной на GPT. Все три модели обеспечивают высокую производительность при эффективном использовании памяти; например, LFM-3B от Liquid требует всего 16 ГБ оперативной памяти, в то время как Llama-3.2-3B от Meta требует более 48 ГБ.
Максим Лабонн, руководитель пост-тренировочного процесса в Liquid AI, выразил гордость за модели LFM в социальных сетях, подчеркивая их эффективность и способность превосходить трансформеры по производительности при значительно меньших затратах памяти. Эти модели оптимизированы для множества приложений, включая корпоративные решения в области финансов, биотехнологий и потребительской электроники, а также для развертывания на краевых устройствах.
Однако стоит отметить, что LFM не являются open-source. Пользователи могут получить доступ к ним через интерактивные платформы Liquid, такие как Lambda Chat или Perplexity AI.
Подход Liquid к разработке LFM включает в себя сочетание вычислительных единиц, основанных на теории динамических систем, обработке сигналов и численной линейной алгебре. Это приводит к созданию универсальных AI-моделей, способных обрабатывать различные типы последовательных данных, включая видео, аудио, текст и временные ряды.
В прошлом году сообщалось о внимании Liquid AI к Liquid Neural Networks (LNN), архитектуре, разработанной CSAIL, призванной повысить эффективность и адаптивность искусственных нейронов. В отличие от традиционных моделей глубокого обучения, которые требуют множества нейронов для сложных задач, LNN показывают, что меньшее количество нейронов в комбинации с инновационными математическими техниками может достигать сопоставимых результатов.
LFM используют эту адаптивность, позволяя проводить реальное время настройки в процессе вывода с минимальными затратами вычислительных ресурсов. Например, модель LFM-3B превосходно справляется с управлением длинными контекстами, сохраняя меньший объем памяти по сравнению с моделями, такими как Gemma-2 от Google, Phi-3 от Microsoft и Llama-3.2 от Meta.
Благодаря своей мультимодальной способности, Liquid AI решает разнообразные отраслевые проблемы в финансовых услугах, биотехнологиях и потребительской электронике.
В настоящее время, находясь на этапе предварительного просмотра, Liquid AI призывает ранних пользователей протестировать модели и предоставить отзывы. Полное событие запуска запланировано на 23 октября 2024 года в аудитории Крезге MIT в Кембридже, штат Массачусетс, с возможностью предварительной регистрации. Для подготовки Liquid AI планирует выпустить серию технических блогов и поощрять тестирование моделей на устойчивость, приглашая пользователей проводить стресс-тестирование для будущих улучшений.
С запуском Liquid Foundation Models, Liquid AI нацеливается утвердиться в качестве значительного игрока в секторе фундаментальных моделей, сочетая исключительные показатели производительности с непревзойденной памятью.