최근 AI 스타트업 Gradient와 클라우드 컴퓨팅 플랫폼 Crusoe는 Llama-3 모델의 컨텍스트 윈도우를 인상적인 100만 토큰으로 확장했습니다. 컨텍스트 윈도우는 대형 언어 모델(LLM)이 처리할 수 있는 입력 및 출력 토큰의 수를 의미하며, 여러 응용 프로그램에서 매우 중요합니다.
기술 기업과 주요 AI 연구소들은 LLM의 컨텍스트 윈도우를 개선하기 위해 치열한 경쟁을 벌이고 있습니다. 몇 달 만에 토큰 지원은 수천에서 100만을 넘어섰습니다. 다만, Anthropic Claude(20만 토큰), OpenAI GPT-4(12만8천 토큰), Google Gemini(100만 토큰)와 같은 광범위한 컨텍스트 윈도우를 가진 모델들은 주로 비공식 설정에서만 사용 가능합니다.
오픈소스 장기 컨텍스트 LLM의 필요성
Gradient는 LLM을 운영에 통합하려는 기업 고객과 협력하고 있습니다. Llama-3 출시 이전 Gradient는 고객 프로젝트에서 상당한 컨텍스트 제한에 직면했습니다. 예를 들어, 코딩 코파일럿은 일반적으로 짧은 코드 스니펫을 생성하지만, 이제 기업들은 이러한 기능을 개선하여 전체 코드 모듈을 개발하고자 합니다.
“이를 위해 언어 모델은 전체 코드베이스나 여러 GitHub 레포지토리를 참조해야 합니다.”라고 Gradient AI의 수석 과학자 레오 페켈리스가 설명했습니다. “전체 코드베이스를 조각조각 제공하는 것은 느리고 불확실성을 초래할 수 있습니다.”
“언어 모델의 컨텍스트에 전체 코드베이스를 입력할 수 있다면 많은 문제를 해결하고, 더 정확하고 효율적인 솔루션을 제공할 수 있습니다.”라고 페켈리스가 덧붙였습니다.
많은 기업들은 데이터 전송 제한으로 인해 Gemini나 Claude와 같은 비공식 모델을 활용할 수 없습니다. 이는 Gradient 팀이 100만 토큰 컨텍스트를 갖춘 자체 오픈소스 모델 개발에 나선 이유입니다.
오픈 리서치 기여
LLM의 상용화는 AI 연구소들이 발견과 연구를 공유하는 것을 줄였습니다. 기업들은 컨텍스트 윈도우를 확장하는 동시에 모델 최적화를 위한 코드, 데이터 또는 전략 공개에는 소극적입니다. 그럼에도 불구하고 오픈 리서치 커뮤니티는 지식 공유와 모델 발전에 여전히 전념하고 있습니다. Gradient는 전세계 대학 및 연구소의 연구 기여를 많이 반영했습니다.
Gradient는 Meta의 Llama 3의 80억 및 700억 파라미터 버전을 사용하여 기본 컨텍스트 윈도우가 8,000 토큰인 기술을 구현했습니다. 버클리 AI 연구소의 기술을 통해 메모리와 컴퓨팅 자원을 과부하 없이 더 긴 컨텍스트 길이를 가능한 방법으로 구현했습니다. 초기 코드는 싱가포르의 오픈소스 프로젝트에서 가져왔고, 주요 수학 공식은 상하이의 연구소에서 제공받았습니다. 그들은 Nvidia의 벤치마크를 사용하여 Gemini와 같은 다른 장기 컨텍스트 LLM과 모델을 비교했습니다.
“이 모든 발전은 오픈 리서치 커뮤니티 덕분에 가능했습니다.”라고 페켈리스가 강조했습니다. “오픈 리서치는 우리 작업에 전반적으로 큰 영향을 미칩니다.”
컴퓨팅 도전 극복
컴퓨팅 자원 접근은 LLM 연구의 주요 도전 과제입니다. 대부분의 AI 연구소는 교육 및 테스트를 위해 대규모 GPU 클러스터에 의존합니다. Gradient는 Crusoe와 협력하여 장기 컨텍스트 LLM을 조사하고 비용 효율적인 모델 개발을 모색했습니다.
“우리는 [Nvidia] L40S 클러스터를 출시하면서 이 시기가 remarkable하다고 생각했습니다.”라고 Crusoe의 시니어 개발자 옹호자 에단 피터슨이 말했습니다. “이 칩이 추론뿐만 아니라 광범위한 교육을 가능하게 한다는 것을 보여주고자 했습니다.”
대형 기술 기업들은 A100, H100, 다가오는 B100과 같은 고급 GPU를 놓고 경쟁하며, 이들은 각각 수만 달러의 비용이 발생하고 서버 클러스터는 수백만 달러에 이릅니다. Crusoe는 이러한 GPU를 제공하고 고객을 위한 맞춤형 솔루션을 개발합니다. Gradient와 긴밀히 협력하여 L40S 클러스터를 설정하고 교육 비용을 크게 절감했습니다.
“Gradient와 같은 파트너와의 접근 방식은 그들의 요구에 맞춰 가장 효율적인 컴퓨팅 솔루션을 제공하는 데 중점을 두고 있습니다. 이 경우 L40S는 이상적이었습니다.”라고 Crusoe의 최고 제품 책임자 패트릭 맥그레거가 언급했습니다. “우리는 맞춤형 컴퓨팅 제공을 통해 큰 가치를 제공합니다.”
페켈리스는 L40S 클러스터에서의 네트워크 최적화를 통해 빠르게 모델을 교육할 수 있었으며, Llama-3 출시 직후 모델을 공개할 수 있었습니다. 다른 클라우드 제공업체는 유사한 협력 유연성이 부족하여 맞춤형 구성을 복잡하게 만듭니다.
모델 평가 기술
장기 컨텍스트 윈도우를 평가하는 중요한 벤치마크 중 하나는 '건초 더미 속 바늘 찾기' 테스트입니다. 이 테스트는 특정 정보를 긴 텍스트 시퀀스 내에서 평가합니다.
“우리 모델은 이 테스트에서 거의 완벽한 성과를 달성하며, 200만 컨텍스트 길이까지 효과적입니다. 이는 Gemini 1.5 Pro와 비교할 수 있습니다.”라고 페켈리스가 말했습니다. 그러나 '건초 더미 속 바늘 찾기' 테스트는 모델의 전반적인 컨텍스트 성능을 완전히 나타내지 않을 수도 있습니다. 팀은 여러 "건초 더미 속 바늘" 또는 대립하는 바늘과 같은 복잡한 평가도 수행했습니다.
그들은 Nvidia의 RULER 벤치마크를 사용하여 모델을 평가하였으며, 이 벤치마크는 다양하고 복잡한 시퀀스 길이로 장기 컨텍스트 언어 모델을 평가하기 위한 13개 작업으로 구성되어 있습니다. 또한 팀은 여러 예제를 프롬프트에 포함하여 새로운 작업에 동적으로 적응할 수 있는 다중 촉각 학습 능력을 강화하고 있습니다.
장기 컨텍스트 LLM의 기업 응용
페켈리스는 장기 컨텍스트 오픈 모델이 LLM 기반 응용 프로그램을 개발하려는 기업과 개발자 간의 격차를 해소할 것이라고 믿고 있습니다.
“현재 개별 AI 응용 프로그램과 기업 솔루션 간에 눈에 띄는 불균형이 존재하며, 후자가 뒤처져 있습니다.”라고 그는 언급했습니다. “언어 모델이 더 많은 정보를 컨텍스트 윈도우에서 처리할 수 있게 된다면 새로운 가능성이 열립니다.”
더 긴 컨텍스트는 다양한 언어 모델이 함께 작업하는 에이전틱 시스템을 강화하며, 더 적은 요청으로 더 많은 정보를 처리할 수 있습니다. 또한, 장기 컨텍스트 LLM은 스타일 모방과 같은 복잡한 데이터 처리 작업을 단순화할 수 있습니다.
"다양한 자료를 수집하고 전처리하여 내 글쓰기 스타일을 모방하도록 모델을 교육하는 대신, 내 이전 이메일을 모두 입력하면 모델이 나처럼 작성하는 법을 배울 수 있습니다."라고 페켈리스가 설명했습니다.
또한, 광범위한 컨텍스트 윈도우를 가진 LLM은 각 프롬프트에 대해 적절한 문서를 매번 가져오는 검색 보강 생성(RAG)에 대한 의존도를 줄일 수 있습니다. 가정적으로 무한한 컨텍스트를 가진 LLM은 모든 문서를 프롬프트에 포함시켜 각 쿼리에 대해 가장 관련성 높은 섹션을 선택할 수 있지만, 여전히 각 새로운 채팅 세션에 대해 재쿼리를 요구합니다.
개선된 컨텍스트 윈도우는 프로토타입과 개념 증명의 생성 장벽을 낮추어 제품 팀이 언어 모델의 잠재력을 이해하는 데 도움을 줄 수 있습니다.
“종종 고객에게 가능한 것을 교육하는 것이 중요한 초기 단계입니다.”라고 페켈리스가 결론지었습니다. “프로토타입이나 초기 예제를 개발하는 것은 기업에게 변혁적인 가능성을 보여줍니다.”