대규모 언어 모델(LLMs)은 다양한 솔루션을 탐색하여 계획 및 추론 작업을 해결할 수 있는 잠재력을 보여주었습니다. 그러나 현재의 방법은 느리고, 계산 비용이 많이 들며 때때로 신뢰할 수 없는 결과를 낳기도 합니다. 이러한 문제를 해결하기 위해 코넬 대학교와 IBM 리서치의 연구자들은 AutoToS를 개발했습니다. AutoToS는 LLM의 계획 능력과 규칙 기반 탐색 알고리즘의 효율성과 정밀성을 결합하여 인간의 개입을 최소화하고 계획 문제 해결에 필요한 계산 비용을 크게 줄입니다. 이는 LLM이 광범위한 솔루션 공간에서 합리적인 의사 결정을 요구하는 애플리케이션에 적합한 솔루션이 됩니다.
계획을 위한 혁신적인 기술
LLM을 계획 문제에 활용하려는 관심이 급증하며 다양한 방법이 개발되었습니다. 가장 효과적인 방법 중 하나인 '생각의 나무(Tree of Thoughts)'는 LLM을 탐색 알고리즘으로 활용해 솔루션을 검증하고 수정 사항을 제안합니다. 그러나 이러한 기술은 LLM 호출의 높은 요구와 "완전성"(completeness) 및 "정확성"(soundness)에 대한 보장 부족이라는 두 가지 핵심 도전에 직면해 있습니다. 완전성은 존재하는 솔루션을 결국 찾을 것임을 보장하고, 정확성은 제공된 솔루션이 유효함을 확인합니다.
'검색의 생각(Thought of Search, ToS)'은 LLM을 활용하여 검색 알고리즘의 핵심 구성 요소인 후속 함수(successor function)와 목표 함수(goal function)의 코드를 생성하는 대안을 제시합니다. 이 방법은 검색 과정에서 LLM의 개입 필요성을 줄여 효율성을 높입니다. IBM 리서치의 주요 연구원인 마이클 카츠는 “역사적으로 계획 커뮤니티는 이러한 구성 요소를 새 문제에 대해 수동으로 코딩했거나, 손으로 코딩된 플래닝 언어 설명에서 생성했습니다. 우리는 대규모 언어 모델을 사용해 텍스트 문제 설명에서 검색 구성 요소의 코드를 생성하는 것을 목표로 했습니다.”라고 설명합니다.
원래의 ToS 기법은 검색 알고리즘의 정확성과 완전성에서 유망한 발전을 이루었으나, 생성된 코드에 대한 피드백을 위해 인간 전문가가 필요해 알고리즘의 속도가 저하되는 병목 현상이 발생했습니다.
AutoToS로 프로세스 자동화
이러한 제한을 해결하기 위해 AutoToS는 유닛 테스트와 디버깅 문을 활용하여 피드백 및 디버깅 프로세스를 자동화합니다. AutoToS는 여러 단계를 거쳐 작동합니다. 첫째, LLM에 문제 설명을 제공하고 후속 및 목표 함수의 코드를 생성하도록 유도합니다. 다음으로, 유닛 테스트가 목표 함수를 평가하여 필요한 수정 사항에 대한 피드백을 제공합니다. 목표 함수가 테스트를 통과하면 알고리즘은 제한된 광폭 탐색(breadth-first search)을 수행하여 정확성과 완전성을 검증하며, 모든 기준을 충족할 때까지 반복합니다. 마지막으로 검증된 함수는 클래식 검색 알고리즘에 통합되어 전체 검색을 효율적으로 수행합니다.
AutoToS 평가
연구자들은 BlocksWorld, Mini Crossword, 24 게임 등 다양한 계획 및 추론 작업에 걸쳐 AutoToS를 평가했습니다. 그들은 GPT-4o, Llama 2, DeepSeek Coder 등 다양한 LLM을 활용하여 모델 크기에 따른 성능 변화를 분석했습니다. 연구 결과, AutoToS는 모든 모델이 피드백을 통해 코드 오류를 식별하고 수정할 수 있게 했습니다. 일반적으로 큰 모델은 피드백 없이 정확한 목표 함수를 생성하고 후속 함수를 개선하기 위해 최소한의 반복이 필요했습니다. 특히 GPT-4o-mini는 작은 크기에도 불구하고 강력한 정확성 결과를 보였습니다.
연구자들은 “몇 번의 언어 모델 호출만으로 직접적인 인간 피드백 없이 검색 구성 요소를 얻을 수 있음을 보여주며, 이는 모든 모델과 도메인에서 완전성과 정확성이 거의 100%에 달합니다.”라고 언급했습니다. AutoToS는 다른 방법에 비해 LLM 호출을 대폭 줄이며, 예를 들어 24 게임 데이터셋의 1,362 퍼즐을 해결하는 데 이전 방법은 약 100,000회의 GPT-4 호출이 필요했으나, AutoToS는 평균 2.2회의 호출만으로도 충분했습니다. 카츠는 “이 구성 요소로 모든 1,362 게임을 2초 이내에 완전한 정확도로 해결할 수 있으며, 이는 이전 방법들이 이룰 수 없었던 성과입니다.”라고 덧붙였습니다.
기업 애플리케이션에 대한 의미
AutoToS는 계획 솔루션이 필요한 기업 환경에서 큰 잠재력을 가집니다. LLM 사용 비용과 수동 입력에 대한 의존도를 줄여 전문가가 고수준의 계획 및 목표 사양에 집중할 수 있게 합니다. 카츠는 “우리는 AutoToS가 언어 모델을 사용해 검증 가능한 검색 구성 요소를 생성하고 개발 속도를 높이면서 LLM 배포 시 발생하는 문제를 피할 수 있기를 바랍니다.”라고 강조했습니다.
ToS와 AutoToS는 심볼릭 AI(neuro-symbolic AI)를 구현한 사례로, 이는 딥 러닝과 규칙 기반 시스템을 결합하여 복잡한 문제를 해결하는 하이브리드 접근 방식입니다. 이러한 접근 방식은 현재 AI 시스템의 단점을 해결하는 효과적인 방향으로 점점 더 인식되고 있습니다. IBM의 연구 과학자인 하르샤 코켈은 “하이브리드 시스템이 AI에서 어떤 역할을 할지에 대해 의심의 여지가 없습니다. 현재의 언어 모델은 다음 토큰을 결정하기 위한 검색을 수행하므로 하이브리드 시스템으로 볼 수 있습니다.”라고 말했습니다.
ToS와 AutoToS는 상당한 가능성을 보여주지만, 추가 탐색이 여전히 필요합니다. 코켈과 카츠는 “자연어를 통한 계획이 어떻게 발전하고 LLM이 결정 과정에서 계획 도구의 통합을 향상시킬 수 있는지를 보는 것은 흥미롭습니다. 이는 향후 지능형 에이전트를 위한 길을 열 것입니다.”라고 결론짓습니다. “우리는 LLM의 세계 지식이 실제 상황에서 계획과 행동을 어떻게 풍요롭게 할 수 있을지 탐구할 준비가 되어 있습니다.”