Hugging Face представил Idefics2: новый 8-миллиардный открытый визуальный языковой модель.

Hugging Face представила визуальную языковую модель Idefics в 2023 году, используя технологии, изначально разработанные DeepMind. Обновленная версия, Idefics2, теперь доступна на Hugging Face и обладает уменьшенным размером параметров, открытой лицензией и улучшенными возможностями оптического распознавания символов (OCR).

Idefics, что расшифровывается как Image-aware Decoder Enhanced à la Flamingo с межсекторальным перекрестным вниманием, является универсальной мультимодальной моделью, способной обрабатывать как текстовые, так и изображенческие запросы. Если первоначальная модель Idefics имела 80 миллиардов параметров, то Idefics2 была оптимизирована до всего лишь 8 миллиардов, что делает ее сопоставимой с такими моделями, как DeepSeek-VL и LLaVA-NeXT-Mistral-7B.

Ключевые улучшения в Idefics2 включают продвинутую манипуляцию с изображениями, поддерживающую оригинальные разрешения до 980 x 980 пикселей без необходимости изменения размера для подгонки под фиксированное квадратное соотношение, что является распространенной ограниченностью в традиционном компьютерном зрении.

Возможности OCR модели также получили улучшения благодаря интеграции данных, полученных из транскрипции текста на изображениях и документах. Команда Hugging Face значительно повысила способность Idefics2 отвечать на вопросы, касающиеся графиков, таблиц и документов.

Более того, архитектура Idefics2 была упрощена за счет отказа от механизмов перекрестного внимания, использованных в ее предшественнике. По словам Hugging Face, «изображения подаются в визуальный энкодер, за которым следует полученное обучение персептрона и многослойный перцептрон для проекции модальностей. Эта сгруппированная последовательность объединяется с текстовыми векторами, чтобы создать переплетенную последовательность изображений и текста».

Для обучения Idefics2 Hugging Face использовала комбинацию общедоступных наборов данных, включая Mistral-7B-v0.1 и siglip-so400m-patch14-384. Дополнительные тренировочные данные включали веб-документы, пары изображений и подписей, данные OCR и ресурсы для преобразования изображений в код.

Запуск Idefics2 происходит на фоне бурного роста мультимодальных моделей в сфере ИИ, включая Core модель от Reka, Grok-1.5V от xAI и Imagen 2 от Google.

Most people like

Find AI tools in YBX