Обзор новой модели OpenAI O1: Превосходство в программировании и разработке игр, но проблемы с фактическими знаниями

Последняя модель OpenAI "Strawberry" O1: Революционный прорыв в способности рассуждения

12 сентября OpenAI неожиданно представила долгожданную модель "Strawberry", олицетворяющую первую версию новой линии моделей рассуждения, названной O1. В настоящее время доступны предварительная версия O1 (o1-preview) и мини-версия (o1-mini) для подписчиков ChatGPT Plus и Team, а пользователи Enterprise и Edu получат доступ в начале следующей недели. OpenAI также планирует в будущем предложить O1-mini всем бесплатным пользователям, хотя конкретная дата пока не определена.

По данным OpenAI, модель O1 решает проблемы аналогично человеческому мышлению, особенно в задачах, связанных с математикой, программированием и наукой.

Чтобы оценить возможности модели o1-preview, журналист Daily Economic News провел тесты по пяти направлениям: Strawberry Test, программирование, создание мини-игр, математика и экономика, а также фактические знания. Результаты показали, что o1-preview превзошел предыдущие модели OpenAI в программировании и математическом рассуждении, генерируя стабильный код и независимо находя решения в сложных ситуациях. Кроме того, o1-preview продемонстрировал значительно улучшенный стиль рассуждений, похожий на человеческий. Однако его результаты в оценках фактических знаний были не настолько высоки.

Способности рассуждения O1

Модель O1 представляет собой значимый шаг OpenAI к созданию AI, приближенному к человеческому. OpenAI приняла решение полностью отказаться от бренда "GPT" для этой модели, так как она воплощает принципиально новую способность. Модель систематически решает проблемы шаг за шагом, имитируя человеческое мышление.

Якоб Пачоцкий, главный научный сотрудник OpenAI, отметил, что O1 проявляет более осторожный подход к вопросам, шаг за шагом анализируя и разбирая задачи для предоставления более качественных ответов, отображая процессы человеческого мышления.

В сферах конкурентного программирования и математики O1 показала высокую точность, превосходя результаты даже человеческих докторов наук в области физики, биологии и химии.

Комплексные результаты тестирования

1. Strawberry Test

Журналист задал простой вопрос: "Сколько 'r' в слове 'strawberry'?" O1-preview дала неожиданно точный ответ, превзойдя предыдущие модели.

2. Программирование

В задаче программирования, когда была поставлена задача "Two Sum", o1-preview представила подробный процесс рассуждения вместе с решением. Когда её попросили оптимизировать ответ, O1 потратила девять секунд, чтобы подтвердить оптимальность решения, также предложив субоптимальный вариант.

3. Создание мини-игр

В тесте на создание мини-игр o1-preview сгенерировала работающий код для игры Pong за 19 секунд, предоставив учебное пособие и мотивирующие комментарии. При создании более сложной игры O1 разработала увлекательную игру с прыжками, демонстрируя свои инновационные способности к рассуждению.

4. Научное тестирование

В тестах по математике и экономике o1-preview предложила основополагающие идеи для известных задач, таких как уравнение Эйлера, сохраняя четкую общую логику. Для сложных вопросов о экономических системах O1 продемонстрировала многомерное мышление и решения.

5. Фактические знания

В приложениях фактических знаний o1-preview неверно истолковала простые запросы, путаницу между фактами и действительными историческими событиями, тогда как GPT-4o показала более высокий уровень в этой области.

Заключение

В заключение, утверждение OpenAI о том, что модель O1 приближается к человеческим уровням рассуждения, не является преувеличением. Ее процессы мышления показывают более человеческое использование языка, хотя OpenAI признает, что ее возможности в обработке текста все еще уступают возможностям GPT-4o.

Несмотря на достижения в нескольких областях, O1 продолжает демонстрировать колебания в производительности при обработке простых запросов. OpenAI заявила, что будущие обновления устранят эти недостатки, подчеркивая, что это лишь предварительный этап разработки модели рассуждения.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles