AutoToS: Ускорение планирования LLM с высокой скоростью, точностью и доступностью

Большие языковые модели (LLM) продемонстрировали потенциал в решении задач планирования и рассуждения, исследуя различные варианты решений. Однако существующие методы часто оказываются медленными, затратными по вычислительным ресурсам и иногда дают ненадежные результаты.

Чтобы преодолеть эти проблемы, исследователи Корнеллского университета и IBM Research разработали AutoToS — технику, которая сочетает возможности планирования LLM с эффективностью и точностью основанных на правилах алгоритмов поиска. AutoToS минимизирует человеческое вмешательство и значительно снижает вычислительные затраты, связанные с решением задач планирования, что делает его жизнеспособным решением для приложений LLM, требующих аргументированного принятия решений в обширных пространствах решений.

Инновационные технологии для планирования

Интерес к использованию LLM для задач планирования резко возрос, что привело к созданию различных методов. Один из самых эффективных методов — Дерево Мыслей, использующее LLM в качестве алгоритма поиска для проверки решений и предложения коррекций. Однако эти технологии сталкиваются с двумя критическими проблемами: высокой потребностью в вызовах LLM, что может быть дорого, и отсутствием гарантий относительно "полноты" и "корректности". Полнота обеспечивает нахождение решения, если оно существует, а корректность подтверждает, что любое предложенное решение действительно.

Метод Мыслей Поиска (ToS) предлагает альтернативу, используя LLM для генерации кода для ключевых компонентов алгоритмов поиска: функции преемника, исследующей различные узлы, и функции цели, определяющей, достигнуто ли желаемое состояние. Этот метод повышает эффективность, снижая необходимость в участии LLM в процессе поиска.

Майкл Кац, ведущий научный сотрудник IBM Research, объясняет: "Исторически сообщество планирования вручную кодировало эти компоненты для новых задач или генерировало их из описаний на языке планирования, которые напрямую кодировались или обучались на данных. Мы стремились использовать большие языковые модели для генерации кода для компонентов поиска на основе текстовых описаний задач."

Оригинальная техника ToS продемонстрировала обнадеживающие достижения в области корректности и полноты алгоритмов поиска, но требовала участия человеческих экспертов для обратной связи с сгенерированным кодом, создавая узкое место, которое замедляло алгоритм.

Автоматизация процесса с AutoToS

Чтобы справиться с этим ограничением, AutoToS автоматизирует процесс обратной связи и отладки, используя модульные тесты и отладочные операторы, наряду с методами few-shot и chain-of-thought (CoT) prompting.

AutoToS действует в несколько этапов. Сначала он предоставляет LLM описание задачи и предлагает сгенерировать код для функций преемника и цели. Затем модульные тесты оценивают функцию цели, предоставляя обратную связь для необходимых доработок. После успешного тестирования функции цели алгоритм проводит ограниченный поиск в ширину для проверки корректности и полноты, повторяя процесс, пока функции не соответствуют всем критериям. В конце проверенные функции интегрируются в классический алгоритм поиска, эффективно выполняя полный поиск.

Оценка AutoToS

Исследователи оценили AutoToS по различным задачам планирования и рассуждения, включая BlocksWorld, Mini Crossword и игру 24, где четыре целых числа должны быть арифметически объединены, чтобы составить 24. Они использовали разные LLM, включая GPT-4o, Llama 2 и DeepSeek Coder, чтобы проанализировать вариации производительности в зависимости от размера модели.

Результаты показали, что AutoToS позволил всем моделям выявлять и исправлять ошибки кода с использованием обратной связи. Большие модели, как правило, генерировали точные функции цели без обратной связи и требовали минимальных итераций для улучшения функции преемника. Примечательно, что GPT-4o-mini показала высокие результаты точности, несмотря на меньший размер.

Исследователи отметили: "С помощью всего нескольких вызовов к языковой модели мы показываем, что можем получить компоненты поиска без прямой человеческой обратной связи, гарантируя корректность, полноту и почти 100% точность для всех моделей и доменов." AutoToS значительно уменьшает количество вызовов к LLM по сравнению с другими методами; например, решение 1,362 головоломок в наборе данных игры 24 потребовало около 100,000 вызовов к GPT-4 при предыдущих подходах, в то время как AutoToS потребовал в среднем всего 2.2 вызова.

Кац отметил: "С этими компонентами мы можем использовать стандартный алгоритм BFS для решения всех 1,362 задач менее чем за 2 секунды с полной точностью — то, чего не могли добиться предыдущие методы."

Последствия для корпоративных приложений

AutoToS обладает значительным потенциалом для корпоративных задач, требующих решений в области планирования. Снижая затраты на использование LLM и зависимость от ручного ввода, он позволяет экспертам сосредоточиться на высокоуровневом планировании и формулировании целей.

Кац подчеркивает: "Мы надеемся, что AutoToS улучшит как разработку, так и внедрение решений на основе планирования, используя языковые модели для создания проверяемых компонентов поиска и ускоряя разработку, обходя проблемы, характерные для развертывания LLM."

ToS и AutoToS иллюстрируют нейросимволический ИИ, гибридный подход, объединяющий глубокое обучение и основанные на правилах системы, для решения сложных задач. Этот подход всё больше признается эффективным направлением для устранения недостатков современных систем ИИ.

"У меня нет сомнений в будущем роли гибридных систем в ИИ," - заявил ХаршаКокел, научный сотрудник IBM. "Современные языковые модели можно рассматривать как гибридные системы, поскольку они выполняют поиск для определения следующих токенов."

Хотя ToS и AutoToS показывают значительные перспективы, дальнейшие исследования остаются важными.

"Волнительно наблюдать, как планирование с использованием естественного языка развивается, и как LLM могут улучшить интеграцию инструментов планирования в процессы принятия решений, прокладывая путь для будущих интеллектуальных агентов," - заключили Кокел и Кац. "Мы стремимся исследовать, как мировые знания LLM могут обогатить планирование и действия в реальных ситуациях."

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles