Вчера OpenAI привлекла внимание перед конференцией разработчиков Google I/O, представив свою последнюю языковую модель ИИ — GPT-4o (сокращение от GPT-4 Omni). Эта мощная модель будет доступна бесплатно для конечных пользователей в качестве основы для ChatGPT и как платный сервис для разработчиков программного обеспечения через API OpenAI, что позволит им создавать пользовательские приложения для своих клиентов или команд.
GPT-4o разработана как мультимодальная модель, значительно более быстрая, экономически эффективная и надежная, чем ее предшественники и, возможно, многие конкуренты. Это важное достижение для разработчиков программного обеспечения, стремящихся интегрировать возможности ИИ в свои приложения. Глава продукта API OpenAI, Оливье Годемент, и менеджер по продукту Оуэн Кэмпбелл-Мур объяснили значение модели во время эксклюзивного конференц-звонка для СМИ.
Как отметил Годемент, "Компьютеры должны адаптироваться к человеческому взаимодействию, а не нам подстраиваться под технические ограничения." С помощью GPT-4o разработчики могут улучшить приложения, начиная от чат-ботов для обслуживания клиентов и заканчивая внутренними инструментами, помогающими сотрудникам с вопросами о политике, расходах и технической поддержке. Универсальность GPT-4o позволяет разработчикам создавать целые бизнесы на основе этой передовой технологии.
Как GPT-4o инновирует
В отличие от предыдущих моделей, требовавших сложной настройки для обработки голосового взаимодействия — интеграции отдельных аудио и текстовых моделей — GPT-4o оптимизирует этот процесс. Она обрабатывает различные медиа напрямую в токены, что представляет собой революционный шаг в сторону настоящего мультимодального ИИ. Это приводит к впечатляющему улучшению скорости: GPT-4o отвечает на аудио-входы всего за 232 миллисекунды, сопоставляясь с человеческой скоростью общения, в отличие от затянутых нескольких секунд GPT-4.
Кроме того, GPT-4o захватывает более тонкую информацию из сложных стимулов, улучшая понимание пользовательских вводов. Хотя предыдущие модели сталкивались с трудностями в интерпретации эмоций или контекста в устной коммуникации, GPT-4o умело распознает тон, динамику речи и даже выражает эмоции в своих взаимодействиях. Как объяснил Годемент, "с одной моделью нет потерь сигнала."
Экономия и масштабируемость
OpenAI передает снижение операционных расходов разработчикам, установив цену на GPT-4o в половину стоимости GPT-4 — всего $5 за миллион входных токенов и $15 за выходные токены. Анализ изображений также стал дешевле, что делает его более доступным для разработчиков. Кроме того, лимит сообщений увеличился с 2 миллионов до 10 миллионов токенов в минуту, значительно улучшая производительность приложений.
“Эта эффективность имеет решающее значение для разработчиков,” — сказал Кэмпбелл-Мур, отметив предыдущие проблемы со скоростью и стоимостью LLM (Больших Языковых Моделей). "GPT-4o призвана побудить большее количество разработчиков интегрировать OpenAI в свои приложения."
Возможности применения
GPT-4o может без проблем заменить существующие ИИ-структуры в сторонних приложениях, особенно в приложения личного помощника и с акцентом на аудио. Годемент считает, что модель станет катализатором создания инновационных приложений с приоритетом на аудио, что радикально изменит взаимодействие человека с компьютером.
Стандарты безопасности данных
Для пользователей ChatGPT доступны варианты хранения данных в меню “Настройки”. В отличие от этого, OpenAI не хранит данные пользователей API более 30 дней, обеспечивая конфиденциальность и безопасность для сторонних разработчиков. Голосовые, визуальные и текстовые вводы сохраняются на короткое время для аудита доверия и безопасности, но сразу после этого удаляются.
Ограничения по сравнению с конкурентами
Хотя GPT-4o обладает впечатляющими возможностями, она имеет контекстное окно в 128 000 токенов — меньше, чем у таких конкурентов, как Google Gemini и Llama 3 от Meta, которые предлагают до 1 миллиона токенов. Однако это все равно соответствует примерно 300 страницам текста, предоставляя значительную емкость для насыщенного взаимодействия.
В настоящее время GPT-4o доступна для разработчиков через API OpenAI, ограниченная функциональностью текстов и изображений. Возможности работы с аудио и видео будут объявлены в ближайшее время на каналах OpenAI.