Hugging Face представил Idefics2: новый 8-миллиардный открытый визуальный языковой модель.

Home Новости ИИ Hugging Face представил Idefics2: новый 8-миллиардный открытый визуальный языковой модель.

Updated on апрель 15 2024

Hugging Face представила визуальную языковую модель Idefics в 2023 году, используя технологии, изначально разработанные DeepMind. Обновленная версия, Idefics2, теперь доступна на Hugging Face и обладает уменьшенным размером параметров, открытой лицензией и улучшенными возможностями оптического распознавания символов (OCR).

Idefics, что расшифровывается как Image-aware Decoder Enhanced à la Flamingo с межсекторальным перекрестным вниманием, является универсальной мультимодальной моделью, способной обрабатывать как текстовые, так и изображенческие запросы. Если первоначальная модель Idefics имела 80 миллиардов параметров, то Idefics2 была оптимизирована до всего лишь 8 миллиардов, что делает ее сопоставимой с такими моделями, как DeepSeek-VL и LLaVA-NeXT-Mistral-7B.

Ключевые улучшения в Idefics2 включают продвинутую манипуляцию с изображениями, поддерживающую оригинальные разрешения до 980 x 980 пикселей без необходимости изменения размера для подгонки под фиксированное квадратное соотношение, что является распространенной ограниченностью в традиционном компьютерном зрении.

Возможности OCR модели также получили улучшения благодаря интеграции данных, полученных из транскрипции текста на изображениях и документах. Команда Hugging Face значительно повысила способность Idefics2 отвечать на вопросы, касающиеся графиков, таблиц и документов.

Более того, архитектура Idefics2 была упрощена за счет отказа от механизмов перекрестного внимания, использованных в ее предшественнике. По словам Hugging Face, «изображения подаются в визуальный энкодер, за которым следует полученное обучение персептрона и многослойный перцептрон для проекции модальностей. Эта сгруппированная последовательность объединяется с текстовыми векторами, чтобы создать переплетенную последовательность изображений и текста».

Для обучения Idefics2 Hugging Face использовала комбинацию общедоступных наборов данных, включая Mistral-7B-v0.1 и siglip-so400m-patch14-384. Дополнительные тренировочные данные включали веб-документы, пары изображений и подписей, данные OCR и ресурсы для преобразования изображений в код.

Запуск Idefics2 происходит на фоне бурного роста мультимодальных моделей в сфере ИИ, включая Core модель от Reka, Grok-1.5V от xAI и Imagen 2 от Google.

Как сотрудничество MongoDB с AI-стартапами и облачными гигантами, такими как AWS, Google и Microsoft, стимулирует инновации в области генеративного ИИ для разработчиков.

API Verify от Telesign использует ИИ и машинное обучение для повышения безопасности и многоканального роста.

Most people like

Subscribr

56.6K

Представляем инструмент ИИ для написания сценариев для YouTube: революция в процессе создания контента! Ищете способ улучшить свои видео на YouTube с помощью захватывающих сценариев? Наш инструмент написания сценариев с ИИ разработан специально для таких создателей, как вы. Благодаря современным алгоритмам и возможностям обработки языка он помогает быстро и легко генерировать интересный контент. Прощайте, writer’s block, и здравствуй, творческая свобода! Будь то обучающие видео, влоги или образовательный контент, наш инструмент обеспечивает захватывающие сценарии, адаптированные под вашу аудиторию. Поднимите свое видеопроизводство на новый уровень и завораживайте зрителей, как никогда ранее!

На базе ИИ AI YouTube Assistant

GrowEasy

23.5K

В сегодняшнем конкурентном рынке использование технологий для улучшения подхода к продажам крайне важно. Наше приложение для генерации лидов на основе ИИ революционизирует способ, которым компании выявляют и соединяются с потенциальными клиентами. Благодаря использованию современных алгоритмов и аналитики данных этот инновационный инструмент упрощает процесс генерации лидов, позволяя вам сосредоточиться на высококачественных перспективах. Улучшите свою стратегию продаж и увеличьте конверсию с нашим передовым приложением, разработанным для эффективной генерации лидов. Откройте для себя будущее продаж уже сегодня!

Искусственный интеллект AI Lead Generation

Overtune

6.9K

Overtune — интуитивно понятная платформа, разработанная для легкого создания музыки, позволяющая пользователям быстро создавать качественные треки.

Создание музыки AI Singing Generator

Datatruck

19.4K

Datatruck предоставляет ценную аналитическую информацию, специально разработанную для транспортных компаний, что позволяет им принимать обоснованные решения, улучшающие оперативную эффективность и способствующие росту.

автоматизация рабочей силы AI Product Description Generator

Find AI tools in YBX