OpenAI запустила значительное обновление ChatGPT, добавив новые голосовые и визуальные функции, которые позволяют чат-боту эффективно видеть, слышать и говорить. Эти улучшения обеспечивают пользователям «более интуитивный интерфейс», позволяя им взаимодействовать с платформой новыми динамичными способами.
С новой функциональностью работы с изображениями пользователи могут загружать фотографии для получения информации или задавать вопросы, основываясь на конкретных элементах изображений. Например, если вы хотите узнать о Эйфелевой башне, просто сделайте фото и используйте его в качестве подсказки. У вас возникли трудности с математической задачей? Сделайте снимок рабочего листа, выделите сложный вопрос, и позвольте ChatGPT помочь вам с решением.
Помимо изображений, ChatGPT теперь поддерживает голосовые взаимодействия. Пользователи могут запрашивать идеи рецептов или просить рассказать вечернюю сказку, просто произнеся свой запрос. Искусственный интеллект не только обработает просьбу, но и ответит голосом, улучшая общее впечатление от использования.
Эти функции будут доступны пользователям ChatGPT Plus и Enterprise в течение следующих двух недель. Голосовые функции совместимы с устройствами iOS и Android, но пользователи должны активировать их через меню «настройки». Возможности работы с изображениями будут доступны на всех платформах.
OpenAI сообщила, что разработчики получат доступ к голосовым и визуальным функциям вскоре после их выпуска, хотя точные сроки пока не определены.
Понимание взаимодействия с изображениями
Улучшенная функциональность работы с изображениями ChatGPT использует мультимодальные версии моделей GPT-3.5 и GPT-4. Пользователи могут загружать одно или несколько изображений в сочетании с текстовыми подсказками. Если они хотят сосредоточиться на конкретном элементе изображения, мобильный интерфейс позволяет легко делать аннотации с помощью инструмента для рисования.
Например, велогонщику, которому нужна помощь с регулировкой седла, достаточно загрузить соответствующее изображение и получить чёткие инструкции по нахождению быстросъемного механизма или болта.
OpenAI подчеркивает, что функции зрения ChatGPT предназначены для помощи в решении практических повседневных задач. «Он достигает этого лучше всего, когда может видеть то, что видите вы», — поясняет компания.
Исследование голосового взаимодействия
Новая голосовая функция меняет способ взаимодействия пользователей с ChatGPT, позволяя вести увлекательные и динамичные беседы. Эта возможность превышает функционал стандартных голосовых помощников, таких как Siri, Alexa и Google Home. Новый текстово-речевой модель генерирует человеческий звук из простых текстовых подсказок, а профессиональные актеры озвучивания предоставили свои голоса для создания разнообразия.
Кроме того, OpenAI использовала свою модель распознавания речи Whisper для точной транскрипции устной речи в текст. Пользователи могут настраивать свой опыт, выбирая предпочитаемый голос из пяти доступных вариантов через вкладку «новые функции» в настройках.
Также идет сотрудничество со стриминговым сервисом Spotify для улучшения голосовых функций чата, что позволит автоматически переводить контент подкастов.
Обеспечение безопасности и конфиденциальности
OpenAI сосредоточена на поддержании безопасности пользователей с новыми функциями. Организация внедрила различные меры предосторожности, сотрудничая с третьими сторонами для выявления потенциальных рисков и ограничений. Кроме того, были установлены технические ограничения для минимизации анализа лиц на изображениях, обеспечивая прозрачность о границах модели.
Проведены тщательные тестирования для решения различных проблем, включая предотвращение злоупотреблений и поддержание конфиденциальности. OpenAI признает трудности, с которыми может столкнуться ChatGPT при работе с неанглийскими языками, особенно с нелатинскими алфавитами, и советует осторожность неносителям английского языка при использовании платформы для таких целей.
С запуском этих функций пользователи могут рассчитывать на более богатый и интерактивный опыт с ChatGPT, меняя способ доступа к информации и взаимодействия с этим продвинутым инструментом ИИ.