Вопросы о производительности нового лидера открытого программного обеспечения в области ИИ Reflection 70B, обвиняемого в «мошенничестве»

Home Новости ИИ Вопросы о производительности нового лидера открытого программного обеспечения в области ИИ Reflection 70B, обвиняемого в «мошенничестве»

Updated on сентябрь 8 2024

Всего за один уикенд новый участник в мире открытых AI-моделей столкнулся с серьезной критикой, ставящей под сомнение его репутацию. Reflection 70B, вариант крупной языковой модели Meta Llama 3.1, выпущенный нью-йоркским стартапом HyperWrite (ранее известным как OthersideAI), был отмечен за достижения значительных показателей. Однако последующие оценки независимых тестировщиков вызвали вопросы о достоверности этих заявлений.

6 сентября 2024 года соучредитель HyperWrite Мэтт Шумер заявил в посте в социальной сети X, что Reflection 70B — «лучшая открытая модель в мире». Шумер подробно описал использование в модели технологии «Reflection Tuning», которая позволяет языковым моделям проверять точность своих выводов перед их представлением пользователям, тем самым улучшая производительность в различных областях.

Тем не менее, уже 7 сентября организация Artificial Analysis публично оспорила это утверждение. В их анализе указывалось, что Reflection 70B показал такой же результат MMLU, как и Llama 3 70B, но значительно уступал Llama 3.1 70B от Meta, что резко контрастировало с первоначальными результатами HyperWrite.

Шумер позже признал, что веса модели были повреждены во время загрузки на Hugging Face, что могло объяснить несоответствия в производительности по сравнению с внутренними тестами.

8 сентября, протестировав частный API, Artificial Analysis отметила, что наблюдала впечатляющие, но непроверенные результаты, которые не соответствовали изначальным заявлениям HyperWrite. Они также задали критические вопросы о выпуске протестированной версии модели и отсутствии опубликованных весов модели для версии частного API.

Члены сообщества на Reddit, посвященном AI, также выразили недоверие к производительности и происхождению Reflection 70B. Некоторые утверждали, что модель кажется вариантом Llama 3, а не ожидаемым Llama 3.1, что вызвало дополнительные сомнения в ее легитимности. Один пользователь даже обвинил Шумера в «мошенничестве в сообществе AI-исследований».

Несмотря на критику, некоторые пользователи защищали Reflection 70B, указывая на его высокую производительность в их случаях использования. Однако резкий переход от восторга к критике подчеркивает изменчивую природу ландшафта AI.

В течение 48 часов сообщество исследователей AI ожидало обновлений от Шумера о производительности модели и исправленных весах. 10 сентября он наконец прокомментировал ситуацию, сказав: «Я преждевременно сделал это заявление, и я приношу извинения. Мы принимали решения, основываясь на имеющейся информации. Я осознаю, что многие взволнованы этим потенциалом, но скептически настроены. Команда усердно работает над выяснением произошедшего. Как только мы разберемся с фактами, мы будем сохранять прозрачность для сообщества».

Шумер сослался на пост Сахила Чаудхари, основателя Glaive AI, который подтвердил путаницу по поводу заявлений модели и отметил сложность воспроизведения бенчмарков. Чаудхари заявил: «Хочу ответить на обоснованную критику. Я исследую ситуацию и скоро предоставлю прозрачный отчет. Я ни разу не запускал модели от других поставщиков и хочу объяснить несоответствия, включая неожиданные поведенческие моменты, например, пропуск определенных терминов. У меня много вопросов по бенчмаркам, и я благодарен сообществу за терпение, пока я восстанавливаю доверие».

Ситуация остается неразрешенной, при этом skepticism вокруг Reflection 70B и его заявлений продолжает нарастать в сообществе открытого AI.

LightEval: Открытый инструмент от Hugging Face для повышения ответственности ИИ

Getty Images запускает "самый чистый" визуальный набор данных для обучения основанным на ИИ моделям.

Most people like

Takeoff

153K

Повышайте свою экспертность в области ИИ с помощью тщательно отобранных онлайн-курсов, призванных развить ваши навыки и знания в искусственном интеллекте.

Искусственный интеллект обучение AI Course

BgRem

277.6K

BgRem — это передовая платформа ИИ, предназначенная для бесшовного создания и редактирования изображений и видео. Независимо от того, являетесь ли вы создателем контента, маркетологом или любителем, BgRem упрощает ваш рабочий процесс, позволяя легко создавать потрясающие визуальные материалы.

Инструменты ИИ AI Tools Directory

AHelp

91.4K

Увеличьте свою эффективность в написании и достигните академического превосходства с помощью ИИ-инструментов.

Инструменты ИИ AI Detector

AIforWork.co

353.2K

Добро пожаловать на AIforWork.co, ваш надежный ресурс для обширной базы промптов Chat GPT, специально разработанной для профессионалов. Наша цель — повысить вашу продуктивность и эффективность, помочь вам работать умнее и достигать большего в повседневных задачах.

Другие AI Workflow Management

Find AI tools in YBX