Языковые модели — это мощные инструменты, способные генерировать натуральный язык для различных задач, включая суммирование, перевод, ответ на вопросы и написание эссе. Однако обучение и эксплуатация этих моделей могут быть дорогостоящими, особенно в специализированных областях, требующих высокой точности и низкой задержки.
Последние исследования в области ИИ от Apple предлагают революционное решение этой проблемы. Новая работа компании под названием «Специализированные языковые модели с дешевой инференцией на основе ограниченных данных» представляет собой экономически эффективную стратегию разработки ИИ, делая сложные технологии более доступными для компаний, которые ранее не могли себе этого позволить.
Это исследование быстро привлекло внимание и даже было представлено в Daily Papers от Hugging Face, что сигнализирует о значительных изменениях в финансовом ландшафте ИИ-проектов. Исследователи выделили четыре ключевые области расходов: бюджет на предварительное обучение, бюджет специализации, бюджет на инференцию и размер обучающего набора данных. Они утверждают, что тщательное управление этими расходами позволяет создавать эффективные и доступные модели ИИ.
Пионеры низкозатратной обработки языка
Как описывает команда, сложность заключается в том, что «большие языковые модели универсальны, но их трудно применять без значительных бюджетов на инференцию и обширных наборов данных для обучения в своей области». Для решения этой проблемы они предлагают два основных подхода: гиперсети в сочетании с смесями экспертов для компаний с достаточным бюджетом на предварительное обучение и более мелкие, выборочно обученные модели для сред с более жесткими финансовыми условиями.
Исследование оценивает различные методы машинного обучения, включая гиперсети, смеси экспертов, выборку по важности и дистилляцию, по трем областям: биомедицина, право и новости. Результаты показывают, что эффективность моделей варьируется в зависимости от контекста. Например, гиперсети и смеси экспертов демонстрируют лучшую перплексию при больших бюджетах на предварительное обучение, в то время как меньшие модели, обученные на критически оцененных наборах данных, оказываются полезными для тех, у кого ограничено финансирование на специализацию.
Статья также предлагает практические рекомендации по выбору оптимального метода с учетом области и бюджета. Авторы утверждают, что их исследование может повысить доступность и полезность языковых моделей в более широком круге приложений.
Сокрушая индустрию с бюджетно ориентированными моделями
Это исследование дополняет растующий массив работы, посвященной повышению эффективности и адаптивности языковых моделей. Например, Hugging Face недавно сотрудничал с Google для упрощения создания и обмена специализированными языковыми моделями, адаптированными под различные области и языки.
Хотя дальнейшая оценка последующих задач необходима, исследование подчеркивает компромиссы между повторным обучением крупных моделей ИИ и адаптацией более мелких и эффективных. При правильных методах обе стратегии могут достичь точных результатов. В сущности, исследование заключает, что самая эффективная языковая модель — это не обязательно самая крупная, а та, которая лучше всего подходит для своей предполагаемой цели.