아콘 인퍼런스 프레임워크, LLM의 속도와 효율성 향상, 추가 비용 없이 실현

스탠포드 대학교 스케일링 인텔리전스 연구소의 연구팀이 대형 언어 모델(LLMs)의 응답 생성 효율성을 향상시키기 위해 설계된 새로운 추론 프레임워크인 Archon을 공개했습니다. Archon은 추가 교육 없이도 LLM의 성능을 향상시키는 추론 시 아키텍처 검색(ITAS) 알고리즘을 사용합니다. 이 모델 불가지론적 오픈소스 프레임워크는 대형 및 소형 모델 모두에 쉽게 구현할 수 있습니다.

Archon은 다양한 추론 기술을 활용하여 응답 생성을 간소화함으로써 개발자들이 AI 시스템을 구축하도록 돕는 것을 목표로 합니다. 스케일링 인텔리전스 연구소에 따르면, 이러한 기술은 모델 개발 및 추론에 관련된 비용을 상당히 줄일 수 있습니다. LLM이 더 큰 매개변수와 더 복잡한 추론으로 발전하면서 비용이 증가할 수 있지만, OpenAI와 같은 기업은 더 저렴한 가격을 기대하고 있습니다.

연구자들은 Archon이 작업의 범용성을 높이는 아키텍처를 자동으로 생성하여 모델이 원래 훈련 범위를 넘어서는 문제를 처리할 수 있도록 한다고 강조했습니다. "우리의 Archon 프레임워크와 ITAS 알고리즘은 신경망 아키텍처 및 아키텍처 검색 방법에 영감을 받았습니다"고 연구자들은 설명했습니다. "Archon은 LLM의 여러 레이어로 구성되며, 같은 레이어 내의 모델은 병렬로 작동하고 각 후속 레이어는 결과를 순차적으로 처리합니다."

이 레이어들은 후보 응답을 수정하기 위해 다양한 추론 기법을 사용하며, 생성 및 융합(선형 변환 등)과 응답 정제(비선형성 등)를 포함합니다. MT-Bench, Arena-Hard-Auto, Alpaca-2.0 Eval, MixEval 등 여러 벤치마크 테스트에서 Archon은 GPT-4o 및 Claude 3.5 Sonnet보다 15.1% 포인트, 오픈소스 LLM보다 11.2% 포인트 높은 성능을 나타냈습니다.

Archon의 구성 요소

ITAS 알고리즘은 여러 주요 구성 요소로 이루어져 있습니다:

1. 생성기: 모델을 위한 잠재적 답변을 생성합니다.

2. 융합기: 이러한 응답을 통합하여 일관된 답변으로 만듭니다. 예를 들어, 프랑스의 수도를 묻는 질문에 "프랑스의 수도는 파리"와 "프랑스는 유럽에 있다"는 응답을 "유럽에 있는 국가 프랑스의 수도는 파리입니다"로 종합합니다.

3. 순위 매기기: 생성된 답변들을 순위 매깁니다.

4. 비평가: 순위가 매겨진 응답의 품질을 평가합니다.

5. 검증기: 논리적 일관성과 정확성을 확인합니다.

6. 단위 테스트 생성기 및 평가자: 응답 정확성을 검증하기 위해 소규모 테스트를 수행합니다.

Archon의 구조화된 접근 방식은 추가적인 미세 조정 없이도 LLM 응답의 품질을 빠르게 개선할 수 있게 합니다.

Archon의 한계

현재 Archon은 70억 개 이상의 매개변수를 가진 LLM과 함께 가장 효과적으로 작동하며, 이는 Meta의 Code Llama 70B와 같은 모델입니다. 작은 모델은 좁은 컨텍스트 창으로 인해 지침을 따르기 어려워 성능 하락이 발생합니다. 연구 결과 Archon을 7B 모델에 적용했을 때 16%의 성능 저하가 있었음을 강조했습니다.

더욱이 Archon 프레임워크를 사용하는 모델은 단일 턴 모델에 비해 15.7% 낮은 성능을 보입니다. 스탠포드 연구소는 Archon이 챗봇과 같이 단일 LLM 호출의 빠른 지연을 요구하는 응용 프로그램에 적합하지 않다고 언급했습니다. 이 아키텍처는 여러 LLM 호출을 포함하기 때문에 간단한 쿼리 응답 작업에는 덜 효과적입니다. 그러나 Archon은 프로그래밍이나 고급 고객 서비스 시나리오처럼 복잡한 지침이 필요한 더 복잡한 작업을 처리하는 데에는 강점을 보일 수 있습니다.

이러한 도전에도 불구하고, 연구자들은 Archon이 추론 및 교육에 대한 자본 투자 없이 고성능 LLM 개발을 가속화할 수 있기를 희망하고 있습니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles