GPT-4o от OpenAI — это самый новый и продвинутый крупный языковой модель (LLM), разработанный OpenAI, с множеством инновационных функций как для бесплатных, так и для платных пользователей. Как мультимодальный ИИ, он улучшает опыт ChatGPT, обеспечивая более быстрые ответы, лучшее понимание и набор новых возможностей, которые будут анонсированы в ближайшие недели.
На фоне усиления конкуренции со стороны Meta с Llama 3 и Google с Gemini, новая модель OpenAI ставит перед собой цель занять лидирующие позиции. Вот что делает её такой захватывающей.
Для пользователей бесплатной версии ChatGPT, которые завидуют функциям пользователей ChatGPT Plus, отличные новости! Теперь вы можете использовать обнаружение изображений, загрузку файлов, находить пользовательские GPT в GPT Store, пользоваться функцией памяти для сохранения истории разговоров, что обеспечит более плавное взаимодействие, а также проводить сложный анализ данных и расчеты.
GPT-4o отражает интеллект стандартной модели GPT-4, однако была разработана как мультимодальный ИИ с нуля. Главное преимущество GPT-4o — это сниженные вычислительные затраты, требующие меньшего количества токенов, что делает её доступной для широкой аудитории. Бесплатные пользователи, однако, столкнутся с ограничением на количество сообщений в день. По достижении этого предела доступ вернется к модели GPT-3.5.
GPT-4 представила несколько усовершенствований по сравнению с GPT-3.5, скорость стала ключевым компонентом. Хотя в GPT-4 наблюдаются улучшения, она в целом работает медленнее. Напротив, GPT-4o обеспечивает практически мгновенные ответы, что делает взаимодействие более быстрым и действенным, особенно в реальном времени, например, при переводе и разговорной помощи.
С момента своего запуска GPT-4o поддерживает текст и изображения, но в будущем будет использовать голосовые команды и взаимодействовать с пользователями через аудио. В отличие от GPT-4, которая преобразовывала голос в текст, обрабатывала ответ и затем возвращала его в голосовом виде, GPT-4o может напрямую воспринимать голосовые запросы и отвечать соответственно. Более быстрое обработка позволяет вести более естественные беседы с пониманием нюансов, таких как интонация, темп и настроение. GPT-4o может смеяться, проявлять сарказм, корректировать ответы на лету и понимать несколько языков для реального перевода. Она может петь и даже создавать дуэты.
GPT-4o значительно улучшает понимание пользователей по сравнению с предыдущими версиями — особенно для устных взаимодействий. Она более точно интерпретирует тон и намерения, что позволяет поддерживать расслабленную и дружелюбную атмосферу. При анализе кода или текста учитываются ваши намерения, что приводит к более персонализированным ответам с меньшей потребностью в четком запросе. Возможность анализа видео и изображений расширяет понимание окружающего мира.
На данный момент пользователи Windows имеют доступ только к основной функции Copilot, однако пользователи macOS вскоре смогут полностью использовать ChatGPT и модель GPT-4o напрямую со своих рабочих столов. Новое нативное рабочее приложение предложит улучшенную доступность и обновленный интерфейс, упрощая взаимодействие. Эта программа будет запущена для большинства пользователей ChatGPT Plus в ближайшее время и станет доступна для бесплатных пользователей в предстоящие недели, а версия для Windows планируется на конец этого года.
На данный момент общественность может воспользоваться текстовыми и изображенческими возможностями GPT-4o, но поддержка продвинутого голосового взаимодействия и понимания видео в реальном времени ожидается в будущем, наряду с широким запуском рабочего приложения для macOS. Эти захватывающие обновления и дополнительные улучшения для ChatGPT уже на подходе.