Salesforce запускает открытые модели мультимодального искусственного интеллекта 'xGen-MM' для улучшения понимания визуального языка.

Salesforce, лидер в области корпоративного программного обеспечения, представила новый набор открытых многомодальных моделей искусственного интеллекта, известный как xGen-MM (или BLIP-3). Этот инновационный релиз, вероятно, ускорит развитие сложных систем ИИ.

Фреймворк xGen-MM, подробно описанный в статье, опубликованной на arXiv исследователями Salesforce AI Research, включает предобученные модели, обширные наборы данных и код для дообучения. Наибольшая модель с 4 миллиардами параметров демонстрирует конкурентоспособные результаты по различным бенчмаркам по сравнению с аналогичными открытыми моделями.

Авторы заявляют: «Мы открываем наши модели, тщательно отобранные крупные наборы данных и код для дообучения, чтобы способствовать дальнейшему развитию исследований в области LMM». Эта инициатива свидетельствует о смещении от тренда к закрытым моделям, что может привести к демократизации доступа к передовым технологиям многомодального ИИ.

Схема xGen-MM (BLIP-3) иллюстрирует обработку взаимосвязанных данных изображений и текста. Модель использует Vision Transformer для кодирования изображений, токен-сэмплер для сжатия визуальной информации и предобученную крупную языковую модель для генерации текста с применением соответствующих потерь к текстовым токенам.

Ключевым аспектом инновации xGen-MM является его способность обрабатывать «взаимосвязанные данные», которые комбинируют несколько изображений и текст, что считается исследователями «самой естественной формой многомодальных данных». Эта способность позволяет моделям выполнять сложные задачи, такие как ответ на вопросы о множестве изображений одновременно, что делает их незаменимыми в таких областях, как медицинская диагностика и автономные транспортные средства.

В релиз вошли несколько моделей, оптимизированных для конкретных задач: базовая предобученная модель, версия с «инструкциями» для соблюдения директив и модель с «настройкой безопасности» для минимизации вредных выводов. Этот выбор отражает растущее признание в сообществе ИИ необходимости совмещать функциональность с этическими соображениями.

Решение Salesforce открыть доступ к этим моделям обещает значительно улучшить инновации в области многомодального ИИ. Предоставляя исследователям и разработчикам доступ к качественным моделям и наборам данных, Salesforce создает возможности для широкой коллаборации и прогресса, в контексте закрытой стратегии некоторых технологических гигантов.

Тем не менее, запуск таких влиятельных моделей вызывает серьезные вопросы о потенциальных рисках и социальных последствиях, связанных с продвинутыми системами ИИ. Хотя Salesforce внедрила настройки безопасности, чтобы решить эти проблемы, более широкие последствия для доступных продвинутых ИИ-моделей продолжают вызывать дискуссии в технологическом сообществе и за его пределами.

Модели xGen-MM были обучены на обширных наборах данных, собранных Salesforce, включая набор данных с триллионом токенов взаимосвязанных изображений и текста, известный как «MINT-1T». Кроме того, были разработаны новые наборы данных для оптического распознавания символов и визуальной привязки, необходимые для естественного взаимодействия систем ИИ с визуальной средой.

С увеличением распространенности технологий ИИ открытая инициатива Salesforce предоставляет исследователям важные инструменты для углубления своих знаний и разработки этих мощных систем. Этот шаг также устанавливает стандарт прозрачности в области, которая часто подвергается критике за свою закрытость, что может побудить другие технологические компании принять аналогичные практики в своих исследованиях ИИ.

В условиях нарастающей гонки в области ИИ открытая стратегия Salesforce может стать ключевым дифференциатором. Продвигая совместную среду вокруг своих моделей, компания может способствовать более быстрой инновации и налаживанию позитивных отношений в исследовательском сообществе. Однако эффективность этого подхода в конкурентной сфере корпоративных ИИ-решений предстоит еще оценить.

Код, модели и наборы данных xGen-MM доступны в репозитории Salesforce на GitHub, и ожидается, что в ближайшее время на сайте проекта появятся дополнительные ресурсы. По мере того как исследователи и разработчики будут взаимодействовать с этими моделями, реальное влияние вкладов Salesforce в многомодальный ИИ станет все более очевидным в грядущие месяцы и годы.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles