Президент OpenAI, Грег Брокман, недавно опубликовал, по всей видимости, первое публичное изображение, созданное новой моделью GPT-4o, на своем аккаунте X.
На изображении изображен человек в черной футболке с логотипом OpenAI, пишущий на доске. На доске написано: «Перенос между модальностями. Предположим, мы непосредственно моделируем P (текст, пиксели, звук) с помощью одного мощного авторегрессионного трансформера. Каковы плюсы и минусы?»
Модель GPT-4o, запущенная в понедельник, улучшает предыдущую семью GPT-4 (включая GPT-4, GPT-4 Vision и GPT-4 Turbo), предлагая более быструю обработку, сниженные затраты и лучшее сохранение информации из различных источников, таких как аудио и визуальные данные.
Инновационный подход OpenAI к обучению модели GPT-4o с использованием мультимедийных токенов устраняет необходимость сначала преобразовывать аудио и визуальные данные в текст. Это позволяет модели напрямую анализировать и интерпретировать эти медиаформаты, обеспечивая более плавную и эффективную работу по сравнению с предыдущими моделями GPT-4, которые полагались на многоступенчатые взаимосвязанные модели.
Сравнение нового изображения с теми, что были созданы помощью DALL-E 3 от OpenAI, выпущенной в сентябре 2023 года, подчеркивает значительные улучшения в качестве, фотореализме и точности текста с использованием модели GPT-4o.
На данный момент возможности генерации изображений в GPT-4o не доступны для широкой публики. Как отметил Брокман в своем посте, «команда усердно работает над тем, чтобы представить их миру».