Исследователи обнаружили, что Google Gemini уступает GPT-3.5 Turbo.

Home Новости ИИ Исследователи обнаружили, что Google Gemini уступает GPT-3.5 Turbo.

Updated on декабрь 19 2023

О, Google. Когда же вы выпустите успешный AI продукт с первого раза?

Менее чем через месяц после запуска Gemini, столь ожидаемого конкурента ChatGPT, Google столкнулась с серьезной критикой из-за подтасованных взаимодействий в своем рекламном демо. Недавние исследования показывают, что самая продвинутая версия для потребителей, Gemini Pro, уступает модели GPT-3.5 Turbo от OpenAI по большинству задач.

Исследования, проведенные командой из Университета Карнеги-Меллон и BerriAI в работе «Подробный анализ языковых возможностей Gemini», показывают, что Gemini Pro демонстрирует результаты немного ниже, чем GPT-3.5 Turbo по различным задачам. Статья, опубликованная на arXiv.org, подчеркивает, что на 19 декабря 2023 года точность Gemini Pro значительно уступает более старой модели OpenAI.

Представитель Google заявил, что внутренние исследования показывают, что Gemini Pro превосходит GPT-3.5, и что в начале 2024 года выйдет более мощная версия под названием Gemini Ultra, которая якобы превзойдет GPT-4 в внутренних тестах. Он отметил: «Gemini Pro превосходит модели, оптимизированные для вывода, такие как GPT-3.5, и сравним с другими ведущими моделями».

Исследователи протестировали четыре модели: Google Gemini Pro, OpenAI GPT-3.5 Turbo, GPT-4 Turbo и Mixtral 8x7B от Mistral. Они использовали агрегатор AI LiteLLM для оценки моделей в течение четырех дней, применяя различные запросы, включая 57 вопросов с множественным выбором в области STEM, гуманитарных и социальных наук.

В тесте на основе знаний Gemini Pro набрала 64.12/60.63, в то время как GPT-3.5 Turbo - 67.75/70.07, а GPT-4 Turbo - 80.48/78.95. Отметим, что Gemini постоянно предпочитала ответ «D», что может указывать на предвзятость из-за недостатка настройки для форматов с множественным выбором. Кроме того, она испытывала трудности с определенными категориями, такими как человеческая сексуальность и формальная логика, из-за ограничений по безопасности.

Gemini Pro действительно превзошла GPT-3.5 Turbo в вопросах микроэкономики для старшеклассников и безопасности; однако эти достижения были минимальными. При тестировании более длинных или сложных запросов Gemini Pro показала меньшую точность по сравнению с обеими моделями GPT, хотя в задачах по сортировке слов и манипуляции символами она проявила себя лучше.

Что касается программирования, Gemini снова оказалась в невыгодном положении, показывая худшие результаты, чем GPT-3.5 Turbo в выполнении задач по Python. Хотя Gemini Pro продемонстрировала потенциал в языковом переводе, превосходя GPT-3.5 Turbo и GPT-4 Turbo на нескольких языках, она также имела тенденцию блокировать ответы по многим языковым парам из-за модерации контента.

Эти результаты имеют значительные последствия для амбиций Google в области ИИ. С приближением выпуска Gemini Ultra Google может продолжать оставаться позади OpenAI в производительности генеративного ИИ. Интересно, что исследование также показало, что Mixtral 8x7B от Mistral показал худшие результаты, чем GPT-3.5 Turbo по большинству задач, что указывает на то, что, хотя Gemini Pro и не является лучшей моделью, она все же опережает некоторых новых конкурентов.

В целом, исследование подтверждает, что OpenAI по-прежнему сохраняет свое лидерство в области генеративного ИИ. Как отмечают эксперты, такие как профессор Университета Пенсильвании Итан Моллик, для большинства отдельных приложений GPT-4 остается лучшим выбором — по крайней мере, до выхода Gemini Ultra в следующем году.

Возможен ли Chevrolet за 1 доллар? Изучаем ИИ-чатботов и их риски в автомобильном клиентском обслуживании

Patronus AI выявляет "вызывающие беспокойство" уязвимости безопасности в основных системах искусственного интеллекта.

Most people like

Grainient

Откройте для себя уникальные градиенты и потрясающие фоны, созданные с помощью ИИ, специально для дизайнеров. Поднимите свои творческие проекты на новый уровень с нашей эксклюзивной коллекцией, созданной для вдохновения и улучшения вашей художественной концепции.

Градиенты AI Background Generator

Flux AI Studio

109.4K

Откройте для себя нашу платформу на базе ИИ, которая превращает ваш текст в удивительные изображения. С помощью передовых технологий вы можете с легкостью воплотить свои слова в жизнь — создавая визуализацию, соответствующую вашему воображению. Присоединяйтесь к множеству пользователей, которые раскрыли потенциал превращения идей в захватывающую графику с помощью наших инновационных инструментов.

Генератор изображений на базе ИИ Text to Image

CapMonster Cloud

338.4K

Представляем CapMonster Cloud: продвинутый сервис решения CAPTCHA на базе ИИ, который упрощает автоматизацию решения разнообразных CAPTCHA, включая reCAPTCHA, hCaptcha и другие. Благодаря своей инновационной технологии, CapMonster Cloud повышает эффективность и удобство пользователей при работе с онлайн-платформами.

Веб-скрейпинг AI Image Recognition

DataCamp

6.5M

Откройте мир Data Science и ИИ с гибкими онлайн-курсами, адаптированными под ваш график. Учитесь в своем темпе и раскройте свой потенциал в этих инновационных областях!

Научные данные AI Course

Find AI tools in YBX