Обзор новой модели OpenAI O1: Превосходство в программировании и разработке игр, но проблемы с фактическими знаниями

Home Новости ИИ Обзор новой модели OpenAI O1: Превосходство в программировании и разработке игр, но проблемы с фактическими знаниями

Updated on сентябрь 14 2024

Последняя модель OpenAI "Strawberry" O1: Революционный прорыв в способности рассуждения

12 сентября OpenAI неожиданно представила долгожданную модель "Strawberry", олицетворяющую первую версию новой линии моделей рассуждения, названной O1. В настоящее время доступны предварительная версия O1 (o1-preview) и мини-версия (o1-mini) для подписчиков ChatGPT Plus и Team, а пользователи Enterprise и Edu получат доступ в начале следующей недели. OpenAI также планирует в будущем предложить O1-mini всем бесплатным пользователям, хотя конкретная дата пока не определена.

По данным OpenAI, модель O1 решает проблемы аналогично человеческому мышлению, особенно в задачах, связанных с математикой, программированием и наукой.

Чтобы оценить возможности модели o1-preview, журналист Daily Economic News провел тесты по пяти направлениям: Strawberry Test, программирование, создание мини-игр, математика и экономика, а также фактические знания. Результаты показали, что o1-preview превзошел предыдущие модели OpenAI в программировании и математическом рассуждении, генерируя стабильный код и независимо находя решения в сложных ситуациях. Кроме того, o1-preview продемонстрировал значительно улучшенный стиль рассуждений, похожий на человеческий. Однако его результаты в оценках фактических знаний были не настолько высоки.

Способности рассуждения O1

Модель O1 представляет собой значимый шаг OpenAI к созданию AI, приближенному к человеческому. OpenAI приняла решение полностью отказаться от бренда "GPT" для этой модели, так как она воплощает принципиально новую способность. Модель систематически решает проблемы шаг за шагом, имитируя человеческое мышление.

Якоб Пачоцкий, главный научный сотрудник OpenAI, отметил, что O1 проявляет более осторожный подход к вопросам, шаг за шагом анализируя и разбирая задачи для предоставления более качественных ответов, отображая процессы человеческого мышления.

В сферах конкурентного программирования и математики O1 показала высокую точность, превосходя результаты даже человеческих докторов наук в области физики, биологии и химии.

Комплексные результаты тестирования

1. Strawberry Test

Журналист задал простой вопрос: "Сколько 'r' в слове 'strawberry'?" O1-preview дала неожиданно точный ответ, превзойдя предыдущие модели.

2. Программирование

В задаче программирования, когда была поставлена задача "Two Sum", o1-preview представила подробный процесс рассуждения вместе с решением. Когда её попросили оптимизировать ответ, O1 потратила девять секунд, чтобы подтвердить оптимальность решения, также предложив субоптимальный вариант.

3. Создание мини-игр

В тесте на создание мини-игр o1-preview сгенерировала работающий код для игры Pong за 19 секунд, предоставив учебное пособие и мотивирующие комментарии. При создании более сложной игры O1 разработала увлекательную игру с прыжками, демонстрируя свои инновационные способности к рассуждению.

4. Научное тестирование

В тестах по математике и экономике o1-preview предложила основополагающие идеи для известных задач, таких как уравнение Эйлера, сохраняя четкую общую логику. Для сложных вопросов о экономических системах O1 продемонстрировала многомерное мышление и решения.

5. Фактические знания

В приложениях фактических знаний o1-preview неверно истолковала простые запросы, путаницу между фактами и действительными историческими событиями, тогда как GPT-4o показала более высокий уровень в этой области.

Заключение

В заключение, утверждение OpenAI о том, что модель O1 приближается к человеческим уровням рассуждения, не является преувеличением. Ее процессы мышления показывают более человеческое использование языка, хотя OpenAI признает, что ее возможности в обработке текста все еще уступают возможностям GPT-4o.

Несмотря на достижения в нескольких областях, O1 продолжает демонстрировать колебания в производительности при обработке простых запросов. OpenAI заявила, что будущие обновления устранят эти недостатки, подчеркивая, что это лишь предварительный этап разработки модели рассуждения.

Иск против Google: Анализ исков о нарушении товарных знаков в отношении инструмента чата Gemini

OpenAI представила революционную модель ИИ o1: начало новой эры сложного мышления.

Most people like

Boords

358.4K

Удобный инструмент для создания раскадровок, разработанный для легкости творчества в ваших проектах. Идеален для кинематографистов, писателей и художников, он упрощает процесс визуального повествования.

сценарное планирование AI Presentation Generator

Twixify

310.6K

Раскройте свой писательский потенциал с помощью нашего продвинутого инструмента переработки текста, который специально создан для соответствия вашему уникальному стилю написания. Независимо от того, стремитесь ли вы улучшить ясность, повысить вовлеченность или отточить содержание, наш инструмент предлагает индивидуальные рекомендации, учитывающие ваши потребности. Ощутите бесшовное преобразование своих идей в увлекательный текст, сохраняя при этом исходный смысл. Улучшите свое writing уже сегодня!

переписывание текста AI SEO Assistant

Clarice.ai

155.2K

Раскройте потенциал вашего контента с помощью нашего AI-помощника по написанию, разработанного для повышения эффективности вашего письма и улучшения качества ваших материалов. Ощутите более быстрое и результативное создание контента, который привлекает вашу аудиторию и без усилий достигает ваших целей.

AI асистент по написанию Writing Assistants

AgentX

21.2K

В современных условиях конкурентного рынка использование возможностей надежного ИИ-агента для генерации лидов крайне важно для бизнеса, стремящегося к росту. Благодаря продвинутым алгоритмам и аналитике на основе данных, надежный ИИ-агент оптимизирует процесс поиска клиентов, обеспечивая эффективное взаимодействие с потенциальными покупателями. Узнайте, как интеграция этой технологии может преобразить вашу стратегию генерации лидов и способствовать успеху продаж.

ИИ-агент AI Chatbot

Find AI tools in YBX