Бенчмарк Искусственного Интеллекта Показал Увеличение Производительности Открытых Моделей
Galileo, стартап в области искусственного интеллекта, в понедельник представил значительный отчет о бенчмарке, указывающий на то, что открытые языковые модели стремительно сокращают разрыв в производительности по сравнению с закрытыми моделями. Этот сдвиг может демократизировать доступ к передовым AI-технологиям, способствуя инновациям в различных отраслях.
Во втором ежегодном Индексе Галлюцинаций Galileo оценил 22 ведущие большие языковые модели по их склонности генерировать неточную информацию. Хотя закрытые модели все еще занимают ведущее место, разрыв в производительности значительно сократился всего за восемь месяцев.
«Драматические достижения открытых моделей поразительны», — заявил Викарам Чаттерджи, соучредитель и CEO Galileo. «В октябре 2023 года пять лучших моделей в основном были закрытыми API, в основном от OpenAI. Теперь открытые модели нагоняют их».
Эта тенденция может снизить барьеры на вход для стартапов и исследователей, одновременно побуждая устоявшиеся компании к более быстрому развитию, иначе они рискуют утратить конкурентное преимущество.
Claude 3.5 Sonnet от Anthropic Лидирует
Claude 3.5 Sonnet от Anthropic стал самой успешной моделью, превзойдя предложения OpenAI, доминировавшие в рейтингах прошлого года. Этот сдвиг подчеркивает изменяющийся ландшафт в AI-рынке, где новички конкурируют с устоявшимися лидерами.
«Мы были крайне впечатлены последними моделями Anthropic», — прокомментировал Чаттерджи. «Sonnet показал исключительные результаты в коротких, средних и длинных контекстах, со средними оценками 0,97, 1 и 1, соответственно. Поддержка контекста до 200k токенов указывает на его способность обрабатывать еще более крупные наборы данных».
Индекс также подчеркивает необходимость оценки как стоимости, так и производительности. Gemini 1.5 Flash от Google оказался самой эффективной моделью, предлагая хорошие результаты по значительно более низкой цене по сравнению с ведущими моделями.
«Стоимость Flash составляет $0,35 за миллион вводных токенов, по сравнению с $3 за Sonnet», — объяснил Чаттерджи. «Что касается выхода, Flash стоит около $1 за миллион ответных токенов, тогда как Sonnet обходится в $15. Эта разница в ценах делает критически важным для пользователей наличие значительного бюджета при выборе Sonnet, тогда как Flash предлагает аналогичную производительность по гораздо более низкой цене».
Это ценовое неравенство может повлиять на компании, стремящиеся расширить развертывание AI, подталкивая их к более эффективным моделям, даже если они не являются лидерами.
Глобальная Конкуренция в AI: Alibaba Достигает Успеха
Qwen2-72B-Instruct от Alibaba демонстрирует выдающиеся результаты среди открытых моделей, достигая высоких оценок по коротким и средним вводам. Этот успех отражает значительную тенденцию недоминирования американских компаний в сфере AI, где неамериканские компании добиваются серьезных достижений.
Чаттерджи рассматривает это как часть более широкой демократизации AI. «Используя Llama 3 и Qwen, команды по всему миру теперь могут создавать инновационные продукты, независимо от экономической среды», — отметил он. Он также ожидает, что эти модели будут оптимизированы для периферийных и мобильных устройств, что приведет к впечатляющим приложениям в мобильной и веб-средах.
Индекс также стал заострять внимание на том, как модели управляют различными длинами контекста, от коротких фрагментов до объемных документов. Это отражает растущее использование AI для задач, связанных с обобщением обширных отчетов или анализом больших наборов данных, предоставляя тонкий анализ возможностей моделей, которые важны для бизнеса, оценивающего развертывание AI.
«Мы стремились разбить производительность по длине контекста — малый, средний и большой», — поделился Чаттерджи. «Кроме того, акцент на затратах по сравнению с производительностью критически важен для лиц, принимающих решения».
Результаты показали, что более крупные модели не всегда превосходят меньшие; в некоторых случаях меньшие модели превосходят свои более крупные аналоги, что указывает на то, что эффективность дизайна может превосходить чистый размер.
«Модель Gemini 1.5 Flash оказалась откровением, превзойдя своих более крупных аналогов», — отметил Чаттерджи. «Это подчеркивает тот факт, что эффективность дизайна может иметь приоритет над масштабом в разработке AI».
Взгляд в Будущее Языковых Моделей
Инсайты Galileo могут значительно повлиять на принятие AI в бизнесе. Когда открытые модели совершенствуются и становятся более доступными, компании могут получить доступ к мощным инструментам AI без необходимости в дорогостоящих закрытых услугах, прокладывая путь к широкой интеграции AI и увеличению производительности в различных отраслях.
Стартап, который фокусируется на инструментах для мониторинга и усовершенствования систем AI, предлагает предприятиям помощь в навигации по быстро меняющемуся ландшафту языковых моделей. Предоставляя регулярные бенчмарки, Galileo стремится стать важным ресурсом для технических специалистов, принимающих решения.
«Мы хотим, чтобы наши корпоративные клиенты и пользователи AI-команд использовали это как динамичный инструмент для понимания наиболее эффективных способов разработки AI-приложений», — отметил Чаттерджи.
С учетом того, что конкуренция усиливается, а новые модели появляются почти каждую неделю, бенчмарки Galileo предоставляют снимок быстрых изменений в индустрии. Компания намерена обновлять свой индекс ежеквартально, чтобы отразить изменяющийся баланс между открытыми и закрытыми AI-технологиями.
Чаттерджи ожидает дальнейших инноваций: «Мы наблюдаем появление крупных моделей, которые работают как операционные системы для avancer-reasoning. Они станут все более обобщаемыми в течение следующих одного-двух лет, особенно по мере расширения длины контекста и снижения затрат».
Он также предсказывает рост многомодальных моделей и систем на основе агентов, что потребует новых методов оценки и, вероятнее всего, приведет к новой волне инноваций в области AI.
По мере того как компании сталкиваются с быстрым развитием AI, инструменты вроде Индекса Галлюцинаций Galileo сыграют важную роль в стратегическом принятии решений. Демократизация возможностей AI, в сочетании с возрастающим акцентом на эффективность затрат, указывает на будущее, в котором передовой AI становится не только более мощным, но и более доступным для широкой аудитории организаций.
Этот изменяющийся ландшафт представляет как возможности, так и вызовы. В то время как рост высокоэффективных и экономически эффективных AI-моделей может стимулировать инновации и эффективность, предприятия должны тщательно рассмотреть, какие технологии принять и как эффективно их интегрировать.
По мере размывания границы между открытыми и закрытыми AI-компаниями необходимо оставаться информированными и адаптивными, готовыми корректировать свои стратегии с развитием технологий. Бенчмарк Galileo служит как актуальный снимок трендов AI, так и дорожной картой для навигации по сложному и быстро меняющемуся миру искусственного интеллекта.