Hugging Face представил Idefics2: новый 8-миллиардный открытый визуальный языковой модель.

Home Новости ИИ Hugging Face представил Idefics2: новый 8-миллиардный открытый визуальный языковой модель.

Updated on апрель 15 2024

Hugging Face представила визуальную языковую модель Idefics в 2023 году, используя технологии, изначально разработанные DeepMind. Обновленная версия, Idefics2, теперь доступна на Hugging Face и обладает уменьшенным размером параметров, открытой лицензией и улучшенными возможностями оптического распознавания символов (OCR).

Idefics, что расшифровывается как Image-aware Decoder Enhanced à la Flamingo с межсекторальным перекрестным вниманием, является универсальной мультимодальной моделью, способной обрабатывать как текстовые, так и изображенческие запросы. Если первоначальная модель Idefics имела 80 миллиардов параметров, то Idefics2 была оптимизирована до всего лишь 8 миллиардов, что делает ее сопоставимой с такими моделями, как DeepSeek-VL и LLaVA-NeXT-Mistral-7B.

Ключевые улучшения в Idefics2 включают продвинутую манипуляцию с изображениями, поддерживающую оригинальные разрешения до 980 x 980 пикселей без необходимости изменения размера для подгонки под фиксированное квадратное соотношение, что является распространенной ограниченностью в традиционном компьютерном зрении.

Возможности OCR модели также получили улучшения благодаря интеграции данных, полученных из транскрипции текста на изображениях и документах. Команда Hugging Face значительно повысила способность Idefics2 отвечать на вопросы, касающиеся графиков, таблиц и документов.

Более того, архитектура Idefics2 была упрощена за счет отказа от механизмов перекрестного внимания, использованных в ее предшественнике. По словам Hugging Face, «изображения подаются в визуальный энкодер, за которым следует полученное обучение персептрона и многослойный перцептрон для проекции модальностей. Эта сгруппированная последовательность объединяется с текстовыми векторами, чтобы создать переплетенную последовательность изображений и текста».

Для обучения Idefics2 Hugging Face использовала комбинацию общедоступных наборов данных, включая Mistral-7B-v0.1 и siglip-so400m-patch14-384. Дополнительные тренировочные данные включали веб-документы, пары изображений и подписей, данные OCR и ресурсы для преобразования изображений в код.

Запуск Idefics2 происходит на фоне бурного роста мультимодальных моделей в сфере ИИ, включая Core модель от Reka, Grok-1.5V от xAI и Imagen 2 от Google.

Как сотрудничество MongoDB с AI-стартапами и облачными гигантами, такими как AWS, Google и Microsoft, стимулирует инновации в области генеративного ИИ для разработчиков.

API Verify от Telesign использует ИИ и машинное обучение для повышения безопасности и многоканального роста.

Most people like

MyEssayWriter.ai

140.6K

Откройте для себя революционный инструмент на основе ИИ, созданный для улучшения навыков письма студентов и повышения академических успехов.

AI автор эссе AI Content Generator

200+ ChatGPT Mega-Prompts for Solopreneurs

78.9K

Откройте для себя нашу тщательно подобранную коллекцию мастерски созданных мегаподсказок, разработанных для оптимизации каждой задачи в вашем индивидуальном бизнесе. Автоматизируйте свой рабочий процесс и повысите продуктивность с помощью этих важных инструментов.

Генерация лидов Prompt

Ddict

490.1K

Добро пожаловать на Ddict, ваш надежный сайт для получения всесторонних словарных и переводческих инструментов, поддерживающих множество языков. Будь то улучшение словарного запаса или устранение языковых барьеров, Ddict предлагает удобные ресурсы, которые помогут вам в вашем языковом путешествии.

словарь Translate

ParagraphAI - Leading AI Writing Assistant App

66.2K

Представляем ParagraphAI: ваш идеальный помощник по написанию, созданный для улучшения ваших навыков письма через точные корректировки грамматики и персонализированные рекомендации по стилю. Увеличьте свои писательские способности и креативность с нашей интуитивно понятной платформой, обеспечивая, чтобы ваш контент был безукоризненным и привлекательным.

AI асистент по написанию AI Reply Assistant

Find AI tools in YBX