Вопросы о производительности нового лидера открытого программного обеспечения в области ИИ Reflection 70B, обвиняемого в «мошенничестве»

Всего за один уикенд новый участник в мире открытых AI-моделей столкнулся с серьезной критикой, ставящей под сомнение его репутацию. Reflection 70B, вариант крупной языковой модели Meta Llama 3.1, выпущенный нью-йоркским стартапом HyperWrite (ранее известным как OthersideAI), был отмечен за достижения значительных показателей. Однако последующие оценки независимых тестировщиков вызвали вопросы о достоверности этих заявлений.

6 сентября 2024 года соучредитель HyperWrite Мэтт Шумер заявил в посте в социальной сети X, что Reflection 70B — «лучшая открытая модель в мире». Шумер подробно описал использование в модели технологии «Reflection Tuning», которая позволяет языковым моделям проверять точность своих выводов перед их представлением пользователям, тем самым улучшая производительность в различных областях.

Тем не менее, уже 7 сентября организация Artificial Analysis публично оспорила это утверждение. В их анализе указывалось, что Reflection 70B показал такой же результат MMLU, как и Llama 3 70B, но значительно уступал Llama 3.1 70B от Meta, что резко контрастировало с первоначальными результатами HyperWrite.

Шумер позже признал, что веса модели были повреждены во время загрузки на Hugging Face, что могло объяснить несоответствия в производительности по сравнению с внутренними тестами.

8 сентября, протестировав частный API, Artificial Analysis отметила, что наблюдала впечатляющие, но непроверенные результаты, которые не соответствовали изначальным заявлениям HyperWrite. Они также задали критические вопросы о выпуске протестированной версии модели и отсутствии опубликованных весов модели для версии частного API.

Члены сообщества на Reddit, посвященном AI, также выразили недоверие к производительности и происхождению Reflection 70B. Некоторые утверждали, что модель кажется вариантом Llama 3, а не ожидаемым Llama 3.1, что вызвало дополнительные сомнения в ее легитимности. Один пользователь даже обвинил Шумера в «мошенничестве в сообществе AI-исследований».

Несмотря на критику, некоторые пользователи защищали Reflection 70B, указывая на его высокую производительность в их случаях использования. Однако резкий переход от восторга к критике подчеркивает изменчивую природу ландшафта AI.

В течение 48 часов сообщество исследователей AI ожидало обновлений от Шумера о производительности модели и исправленных весах. 10 сентября он наконец прокомментировал ситуацию, сказав: «Я преждевременно сделал это заявление, и я приношу извинения. Мы принимали решения, основываясь на имеющейся информации. Я осознаю, что многие взволнованы этим потенциалом, но скептически настроены. Команда усердно работает над выяснением произошедшего. Как только мы разберемся с фактами, мы будем сохранять прозрачность для сообщества».

Шумер сослался на пост Сахила Чаудхари, основателя Glaive AI, который подтвердил путаницу по поводу заявлений модели и отметил сложность воспроизведения бенчмарков. Чаудхари заявил: «Хочу ответить на обоснованную критику. Я исследую ситуацию и скоро предоставлю прозрачный отчет. Я ни разу не запускал модели от других поставщиков и хочу объяснить несоответствия, включая неожиданные поведенческие моменты, например, пропуск определенных терминов. У меня много вопросов по бенчмаркам, и я благодарен сообществу за терпение, пока я восстанавливаю доверие».

Ситуация остается неразрешенной, при этом skepticism вокруг Reflection 70B и его заявлений продолжает нарастать в сообществе открытого AI.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles