О, Google. Когда же вы выпустите успешный AI продукт с первого раза?
Менее чем через месяц после запуска Gemini, столь ожидаемого конкурента ChatGPT, Google столкнулась с серьезной критикой из-за подтасованных взаимодействий в своем рекламном демо. Недавние исследования показывают, что самая продвинутая версия для потребителей, Gemini Pro, уступает модели GPT-3.5 Turbo от OpenAI по большинству задач.
Исследования, проведенные командой из Университета Карнеги-Меллон и BerriAI в работе «Подробный анализ языковых возможностей Gemini», показывают, что Gemini Pro демонстрирует результаты немного ниже, чем GPT-3.5 Turbo по различным задачам. Статья, опубликованная на arXiv.org, подчеркивает, что на 19 декабря 2023 года точность Gemini Pro значительно уступает более старой модели OpenAI.
Представитель Google заявил, что внутренние исследования показывают, что Gemini Pro превосходит GPT-3.5, и что в начале 2024 года выйдет более мощная версия под названием Gemini Ultra, которая якобы превзойдет GPT-4 в внутренних тестах. Он отметил: «Gemini Pro превосходит модели, оптимизированные для вывода, такие как GPT-3.5, и сравним с другими ведущими моделями».
Исследователи протестировали четыре модели: Google Gemini Pro, OpenAI GPT-3.5 Turbo, GPT-4 Turbo и Mixtral 8x7B от Mistral. Они использовали агрегатор AI LiteLLM для оценки моделей в течение четырех дней, применяя различные запросы, включая 57 вопросов с множественным выбором в области STEM, гуманитарных и социальных наук.
В тесте на основе знаний Gemini Pro набрала 64.12/60.63, в то время как GPT-3.5 Turbo - 67.75/70.07, а GPT-4 Turbo - 80.48/78.95. Отметим, что Gemini постоянно предпочитала ответ «D», что может указывать на предвзятость из-за недостатка настройки для форматов с множественным выбором. Кроме того, она испытывала трудности с определенными категориями, такими как человеческая сексуальность и формальная логика, из-за ограничений по безопасности.
Gemini Pro действительно превзошла GPT-3.5 Turbo в вопросах микроэкономики для старшеклассников и безопасности; однако эти достижения были минимальными. При тестировании более длинных или сложных запросов Gemini Pro показала меньшую точность по сравнению с обеими моделями GPT, хотя в задачах по сортировке слов и манипуляции символами она проявила себя лучше.
Что касается программирования, Gemini снова оказалась в невыгодном положении, показывая худшие результаты, чем GPT-3.5 Turbo в выполнении задач по Python. Хотя Gemini Pro продемонстрировала потенциал в языковом переводе, превосходя GPT-3.5 Turbo и GPT-4 Turbo на нескольких языках, она также имела тенденцию блокировать ответы по многим языковым парам из-за модерации контента.
Эти результаты имеют значительные последствия для амбиций Google в области ИИ. С приближением выпуска Gemini Ultra Google может продолжать оставаться позади OpenAI в производительности генеративного ИИ. Интересно, что исследование также показало, что Mixtral 8x7B от Mistral показал худшие результаты, чем GPT-3.5 Turbo по большинству задач, что указывает на то, что, хотя Gemini Pro и не является лучшей моделью, она все же опережает некоторых новых конкурентов.
В целом, исследование подтверждает, что OpenAI по-прежнему сохраняет свое лидерство в области генеративного ИИ. Как отмечают эксперты, такие как профессор Университета Пенсильвании Итан Моллик, для большинства отдельных приложений GPT-4 остается лучшим выбором — по крайней мере, до выхода Gemini Ultra в следующем году.