메타와 남부 캘리포니아 대학교의 연구자들이 개발한 새로운 기계 학습 모델인 메갈로돈(Megalodon)은 대형 언어 모델(LLM)의 발전에 중요한 역할을 해온 트랜스포머 아키텍처의 주요 과제를 해결합니다. 이 모델은 수백만 개의 토큰까지 처리할 수 있는 맥락 창을 크게 확장하면서 메모리 사용량을 최소화했습니다. 실험 결과 메갈로돈은 방대한 텍스트를 처리하는 데 있어 기존 트랜스포머 모델보다 우수한 성능을 보였으며, 이는 메갈로돈이 트랜스포머 아키텍처의 잠재적 후계자로 자리 잡고 있음을 시사합니다.
맥락 창 이해하기
“맥락 창”은 모델이 동시에 처리할 수 있는 토큰 수를 의미합니다. 넓은 맥락 창은 LLM이 더 긴 대화에 참여하고, 방대한 문서를 분석하며, 문맥 내 학습을 향상시키는 데 도움을 줍니다. 그러나 트랜스포머의 맥락 창을 늘리면 상당한 계산 비용이 발생합니다. 트랜스포머는 “2차 복잡성”으로 작동하여 입력 크기를 두 배로 늘리면 메모리와 계산 시간이 각각 네 배 증가합니다. 이는 자기 주의(self-attention) 메커니즘에서 모든 입력 순서 요소가 서로 비교되는 구조에서 기인합니다.
메타의 메갈로돈은 2022년에 도입된 이동 평균 기반의 게이트드 주의(MEGA) 기법을 바탕으로 하여 주의 메커니즘을 최적화하고 모델의 복잡성을 크게 줄입니다. 이를 통해 LLM은 과도한 메모리 요구 없이 더 긴 입력을 처리할 수 있습니다. MEGA는 지수 이동 평균(EMA)을 통합하여 지역 토큰과 원거리 토큰 간의 관계의 중요성을 균형 있게 조정하며, 맥락이 확장됨에 따라 일관성을 보장합니다.
메갈로돈의 주요 혁신
메갈로돈은 몇 가지 구조적 수정으로 MEGA를 개선하여 전통적인 전체 주의 메커니즘과 성능을 일치시킵니다. “청크 단위 주의(chunk-wise attention)”를 사용하여 입력 순서를 고정된 블록으로 나누어 복잡성을 2차에서 선형으로 전환합니다. 이러한 접근 방식은 추가적인 병렬 처리를 가능하게 하여 모델 학습 속도를 증가시킵니다.
연구자들은 메갈로돈의 70억 매개변수 버전을 2조 개 토큰으로 훈련시켰으며, Llama-2-7B 및 13B 모델과 성능을 비교했습니다. 그 결과 메갈로돈-7B는 Llama-2-7B 훈련에 사용된 최신 트랜스포머 모델을 능가하며, 훈련 퍼플렉시티와 다양한 하위 작업에서 우수한 성능을 보였습니다. 특히 일부 경우에는 Llama-2-13B의 성능과 맞먹는 결과를 보였습니다.
메갈로돈은 Llama-2보다 다소 느린 속도로 4,000토큰의 맥락 창을 유지하면서도, 계산 효율성이 향상되어 32,000토큰의 맥락 길이에서 두드러진 성능을 발휘합니다. 초기 실험 결과는 메갈로돈이 무한한 길이의 시퀀스를 효과적으로 모델링할 수 있음을 시사합니다. 연구팀은 다양한 데이터 모달리티에서 소규모 실험에서 유망한 결과를 보고했으며, 메갈로돈을 다중 모달 응용 프로그램에 맞게 조정할 계획입니다. 메갈로돈 코드는 MIT 라이선스 하에 GitHub에서 제공되어 무제한으로 조정 및 상업적 사용이 가능합니다.
트랜스포머의 우위
대안 아키텍처에 대한 지속적인 탐색에도 불구하고, Mamba(상업적으로 AI21 Labs에서 사용) 및 MIT에서 개발된 액체 신경망과 같은 아키텍처와 비교할 때 트랜스포머는 여전히 언어 모델에서 선도적인 아키텍처로 자리잡고 있습니다. 메타는 메갈로돈과 같은 모델을 혁신하면서 동시에 Llama-3의 최근 출시를 포함하여 트랜스포머 라인업을 강화하고 있습니다.
새로운 아키텍처를 트랜스포머와 연결된 사용 가능한 광범위한 도구 및 라이브러리에 맞추는 것은 도전 과제가 됩니다. 이러한 도구는 모델 학습, 미세 조정 및 다양한 응용 프로그램과 장치에 대한 최적화를 용이하게 하여 트랜스포머에게 지속적인 우위를 제공합니다. 연구자들은 또한 트랜스포머 아키텍처의 계산 요구 사항을 완화하기 위해 수정하고 있습니다. 예를 들어, 구글의 인피니 어텐션(Inifini-attention)은 메모리 요구를 증가시키지 않고도 무제한 맥락 창을 지원하는 것을 목표로 하며, 현재 모델은 수십만 개의 토큰 입력을 처리할 수 있습니다.
AI 연구가 빠르게 발전함에 따라, 이 분야는 동적임을 인식하는 것이 중요합니다. 2017년 트랜스포머가 소개되었을 때, 그 깊은 영향력을 예측한 이는 많지 않았습니다. 미래의 모델이 트랜스포머를 능가할 가능성도 존재합니다.