Исследователи из Лаборатории масштабирования интеллекта Стэнфордского университета представили новую систему вывода под названием Archon, разработанную для повышения эффективности больших языковых моделей (LLM) в генерации ответов.
Archon использует алгоритм поиска архитектуры во время вывода (ITAS), который улучшает производительность LLM без необходимости дополнительного обучения. Эта модельнезависимая, открытая система легко реализуема как на больших, так и на малых моделях.
Archon направлен на помощь разработчикам в создании систем ИИ, используя различные методы вывода для оптимизации генерации ответов. По информации Лаборатории масштабирования интеллекта, эти техники могут значительно сократить затраты, связанные с разработкой моделей и выводом. С увеличением параметров и усложнением рассуждений LLM расходы могут возрастать, несмотря на ожидания компаний, таких как OpenAI, по поводу снижения цен.
Исследователи подчеркивают, что Archon автоматически разрабатывает архитектуры, которые улучшают обобщение задач, позволяя моделям справляться с вызовами, выходящими за рамки исходного обучения. "Наша система Archon и алгоритм ITAS вдохновлены нейронными архитектурами и практиками поиска архитектур," отметили исследователи. "Archon состоит из слоев LLM, где модели в одном слое работают параллельно, а каждый последующий слой обрабатывает результаты последовательно."
Эти слои используют различные методы вывода для модификации кандидатов на ответы, применяя как генерацию и слияние (например, линейные преобразования), так и уточнение ответов (например, нелинейности).
В тестах на таких бенчмарках, как MT-Bench, Arena-Hard-Auto, Alpaca-2.0 Eval, MixEval, MixEval Hard, MATH и CodeContests, Archon обогнал GPT-4o и Claude 3.5 Sonnet на 15.1 процентных пункта. Он также превзошел открытые LLM на 11.2 процентных пункта.
Компоненты Archon
Алгоритм ITAS состоит из нескольких ключевых компонентов, выполняющих методы вывода:
1. Генератор: Генерирует возможные ответы для модели.
2. Слияние: Объединяет эти ответы в целостный ответ. Например, на вопрос о столице Франции он синтезирует ответы "столицей Франции является Париж" и "Франция находится в Европе" в одно утверждение: "Столицей Франции, страны в Европе, является Париж."
3. Ранжировщик: Оценивает сгенерированные ответы.
4. Критик: Оценивает качество ранжированных ответов.
5. Проверщик: Проверяет логическую согласованность и правильность.
6. Генератор и оцениватель модульных тестов: Проводит небольшие тесты для проверки точности ответов.
Структурированный подход Archon позволяет быстрее улучшать качество ответов LLM без необходимости дополнительной донастройки.
Ограничения Archon
На данный момент Archon демонстрирует наилучшие результаты с LLM, имеющими 70 миллиардов параметров и более, такими как Code Llama 70B от Meta. Это ограничение связано с уменьшенной способностью меньших моделей следовать инструкциям из-за более узких контекстных окон. Исследование показало значительное снижение производительности на 16% при применении Archon к моделям с 7B параметрами.
Более того, модели, использующие систему Archon, отстают на 15.7% от односторонних моделей. Лаборатория Стэнфорда отметила, что Archon не подходит для приложений, требующих быстрой латентности одного вызова LLM, таких как чат-боты. Его архитектура включает несколько вызовов LLM, что делает его менее эффективным для простых задач из запроса и ответа. Тем не менее, Archon может продемонстрировать преимущества при решении более сложных задач, требующих детальных инструкций, таких как программирование или сценарии обслуживания клиентов.
Несмотря на эти вызовы, исследователи надеются, что Archon сможет ускорить развитие высокопроизводительных LLM без необходимости увеличения капитальных вложений в вывод и обучение.