Раскрытие 'Remarkable' AI-модели, стоящей за улучшенными мультимодальными возможностями ChatGPT

С приближением годовщины запуска ChatGPT были достигнуты значительные успехи в улучшении этой мощной языковой модели. OpenAI интегрировала новые функции, включая генерацию изображений через DALL-E 3 и доступ к информации в реальном времени через Bing. Однако именно введение голосовых и визуальных функций стало революционным обновлением, переопределившим взаимодействие пользователей.

В центре этих инноваций находится GPT-4V, также известный как GPT-4 Vision. Эта современная многомодальная модель позволяет пользователям взаимодействовать с текстом и изображениями без швов. В тестах, проведенных исследователями из Microsoft — главного партнера и инвестора OpenAI — GPT-4V продемонстрировала необычайные возможности, некоторые из которых ранее не тестировались. Их выводы, представленные в исследовании «Рассвет LMM: предварительные исследования с GPT-4V(ision)», подчеркивают обширный потенциал модели к обработке сложных связанных данных, таких как изображение меню наряду с его текстом.

Что такое GPT-4V?

GPT-4V(ision) — это новаторская многомодальная ИИ-модель, разработанная OpenAI. Она позволяет пользователям задавать вопросы о загруженных изображениях через функцию, известную как визуальный ответ на вопросы (VQA). С октября пользователи подписки ChatGPT Plus за 20 долларов в месяц или версии Enterprise смогут получать доступ к возможностям GPT-4V как на настольных, так и на iOS платформах.

Ключевые возможности GPT-4V

- Визуальное мышление: Эта модель способна понимать сложные визуальные отношения и контекстуальные детали, что позволяет ей отвечать на вопросы на основе изображений, а не просто идентифицировать объекты.

- Следование инструкциям: Пользователи могут давать текстовые команды, что позволяет модели выполнять новые задачи, связанные с визуальным содержанием, без усилий.

- Обучение в контексте: GPT-4V демонстрирует прочное обучение с несколькими примерами, позволяя адаптироваться к новым задачам с минимальным количеством образцов.

- Визуальная ссылка: Модель распознает визуальные подсказки, такие как стрелки и рамки, что обеспечивает точное выполнение инструкций.

- Подробная аннотация: GPT-4V может создавать детальные многосSentenceные описания, передающие сложные взаимосвязи контента.

- Подсчет: Эта модель точно считает объекты на изображении по запросам пользователей.

- Кодирование: Она продемонстрировала способность генерировать код, например, для парсинга JSON, на основе визуальных данных.

По сравнению с предыдущими многомодальными моделями, GPT-4V представляет собой значительное улучшение в понимании связей между визуальным и языковым контентом, подчеркивая свою трансформирующую роль в приложениях ИИ.

Ограничения GPT-4V

Несмотря на впечатляющие возможности, у GPT-4V есть свои недостатки. Пользователи, надеющиеся использовать ее для очень сложных задач, могут столкнуться с трудностями, особенно при наличии уникальных или специально разработанных запросов. Ее эффективность также ограничена при применении к новым или неопознанным образцам, и определенные сложные сценарии требуют адаптированных подсказок для корректной работы.

Появление больших многомодальных моделей (LMM)

Рост многомодального ИИ представляет собой ключевую эволюцию в технологиях. Модели генерации текста теперь улучшены благодаря способности обрабатывать изображения, упрощая запросы пользователей и взаимодействие. Эта эволюция приближает OpenAI к достижению искусственного общего интеллекта (AGI), долгожданной цели в сообществе ИИ. Организация нацелена на создание AGI, который будет не только мощным, но и безопасным для общества, что побуждает государства разрабатывать регуляции для контроля его развития.

OpenAI не одна в этом начинании; другие технологические гиганты, такие как Meta, также инвестируют в исследования многомодального ИИ. Под руководством ученого, удостоенного премии имени Тьюринга, Янна Лекуна, Meta активно разрабатывает модели, такие как SeamlessM4T, AudioCraft и Voicebox, для создания инклюзивного метавселенной. Кроме того, недавно созданный Форум моделей Frontier, в который входят ведущие разработчики ИИ, такие как OpenAI, Microsoft, Google и Anthropic, посвящен продвижению моделей следующего поколения, подчеркивая растущее значение этой области в исследованиях ИИ.

С этими событиями ландшафт искусственного интеллекта быстро развивается, демонстрируя огромный потенциал для творческих приложений и улучшения пользовательского опыта.

Most people like

Find AI tools in YBX