메타, 메갈로돈 LLM 출시로 트랜스포머 아키텍처에 도전하다

Home AI 뉴스 메타, 메갈로돈 LLM 출시로 트랜스포머 아키텍처에 도전하다

메타와 남부 캘리포니아 대학교의 연구자들이 개발한 새로운 기계 학습 모델인 메갈로돈(Megalodon)은 대형 언어 모델(LLM)의 발전에 중요한 역할을 해온 트랜스포머 아키텍처의 주요 과제를 해결합니다. 이 모델은 수백만 개의 토큰까지 처리할 수 있는 맥락 창을 크게 확장하면서 메모리 사용량을 최소화했습니다. 실험 결과 메갈로돈은 방대한 텍스트를 처리하는 데 있어 기존 트랜스포머 모델보다 우수한 성능을 보였으며, 이는 메갈로돈이 트랜스포머 아키텍처의 잠재적 후계자로 자리 잡고 있음을 시사합니다.

맥락 창 이해하기

“맥락 창”은 모델이 동시에 처리할 수 있는 토큰 수를 의미합니다. 넓은 맥락 창은 LLM이 더 긴 대화에 참여하고, 방대한 문서를 분석하며, 문맥 내 학습을 향상시키는 데 도움을 줍니다. 그러나 트랜스포머의 맥락 창을 늘리면 상당한 계산 비용이 발생합니다. 트랜스포머는 “2차 복잡성”으로 작동하여 입력 크기를 두 배로 늘리면 메모리와 계산 시간이 각각 네 배 증가합니다. 이는 자기 주의(self-attention) 메커니즘에서 모든 입력 순서 요소가 서로 비교되는 구조에서 기인합니다.

메타의 메갈로돈은 2022년에 도입된 이동 평균 기반의 게이트드 주의(MEGA) 기법을 바탕으로 하여 주의 메커니즘을 최적화하고 모델의 복잡성을 크게 줄입니다. 이를 통해 LLM은 과도한 메모리 요구 없이 더 긴 입력을 처리할 수 있습니다. MEGA는 지수 이동 평균(EMA)을 통합하여 지역 토큰과 원거리 토큰 간의 관계의 중요성을 균형 있게 조정하며, 맥락이 확장됨에 따라 일관성을 보장합니다.

메갈로돈의 주요 혁신

메갈로돈은 몇 가지 구조적 수정으로 MEGA를 개선하여 전통적인 전체 주의 메커니즘과 성능을 일치시킵니다. “청크 단위 주의(chunk-wise attention)”를 사용하여 입력 순서를 고정된 블록으로 나누어 복잡성을 2차에서 선형으로 전환합니다. 이러한 접근 방식은 추가적인 병렬 처리를 가능하게 하여 모델 학습 속도를 증가시킵니다.

연구자들은 메갈로돈의 70억 매개변수 버전을 2조 개 토큰으로 훈련시켰으며, Llama-2-7B 및 13B 모델과 성능을 비교했습니다. 그 결과 메갈로돈-7B는 Llama-2-7B 훈련에 사용된 최신 트랜스포머 모델을 능가하며, 훈련 퍼플렉시티와 다양한 하위 작업에서 우수한 성능을 보였습니다. 특히 일부 경우에는 Llama-2-13B의 성능과 맞먹는 결과를 보였습니다.

메갈로돈은 Llama-2보다 다소 느린 속도로 4,000토큰의 맥락 창을 유지하면서도, 계산 효율성이 향상되어 32,000토큰의 맥락 길이에서 두드러진 성능을 발휘합니다. 초기 실험 결과는 메갈로돈이 무한한 길이의 시퀀스를 효과적으로 모델링할 수 있음을 시사합니다. 연구팀은 다양한 데이터 모달리티에서 소규모 실험에서 유망한 결과를 보고했으며, 메갈로돈을 다중 모달 응용 프로그램에 맞게 조정할 계획입니다. 메갈로돈 코드는 MIT 라이선스 하에 GitHub에서 제공되어 무제한으로 조정 및 상업적 사용이 가능합니다.

트랜스포머의 우위

대안 아키텍처에 대한 지속적인 탐색에도 불구하고, Mamba(상업적으로 AI21 Labs에서 사용) 및 MIT에서 개발된 액체 신경망과 같은 아키텍처와 비교할 때 트랜스포머는 여전히 언어 모델에서 선도적인 아키텍처로 자리잡고 있습니다. 메타는 메갈로돈과 같은 모델을 혁신하면서 동시에 Llama-3의 최근 출시를 포함하여 트랜스포머 라인업을 강화하고 있습니다.

새로운 아키텍처를 트랜스포머와 연결된 사용 가능한 광범위한 도구 및 라이브러리에 맞추는 것은 도전 과제가 됩니다. 이러한 도구는 모델 학습, 미세 조정 및 다양한 응용 프로그램과 장치에 대한 최적화를 용이하게 하여 트랜스포머에게 지속적인 우위를 제공합니다. 연구자들은 또한 트랜스포머 아키텍처의 계산 요구 사항을 완화하기 위해 수정하고 있습니다. 예를 들어, 구글의 인피니 어텐션(Inifini-attention)은 메모리 요구를 증가시키지 않고도 무제한 맥락 창을 지원하는 것을 목표로 하며, 현재 모델은 수십만 개의 토큰 입력을 처리할 수 있습니다.

AI 연구가 빠르게 발전함에 따라, 이 분야는 동적임을 인식하는 것이 중요합니다. 2017년 트랜스포머가 소개되었을 때, 그 깊은 영향력을 예측한 이는 많지 않았습니다. 미래의 모델이 트랜스포머를 능가할 가능성도 존재합니다.

일론 머스크의 '괜찮은' 리뷰, 메타의 라마 3 AI에 주목하다

마이크로소프트, VASA-1 공개: 음성과 노래로 생동감 있는 인물 헤드샷을 구현하는 AI 프레임워크

Most people like

Client Hub

25.9K

모든 기능이 통합된 솔루션으로 회계사 업무 흐름을 간소화하세요. 원활한 클라이언트 포털과 강력한 추가 기능이 포함되어 있습니다. 재무 관리 프로세스에서 효율성을 극대화하고 협업을 향상시킵니다.

워크플로우 관리 AI Accounting Assistant

Subtxt

45.5K

Subtxt는 이야기꾼들이 매력적인 이야기를 작성할 수 있도록 돕기 위해 설계된 최첨단 글쓰기 도구입니다. 지능형 기능을 갖춘 Subtxt는 사용자가 이야기 스킬을 향상시키고 독자와 효과적으로 소통할 수 있도록 지원합니다.

개요 도구 AI Book Writing

Casetext

5.3M

Casetext는 법률 전문가를 위해 특별히 설계된 고급 AI 법률 도우미를 개발했습니다. 이 혁신적인 도구는 법률 연구를 간소화하고 효율성을 높이며, 변호사가 고객에게 더 나은 결과를 제공할 수 있도록 지원합니다.

법률 AI Legal Assistant

DHTMLX ChatBot

129.6K

우리의 혁신적인 챗봇 위젯으로 원활한 고객 상호작용을 실현하세요. AI 지원 에이전트를 위해 특별히 설계된 이 강력한 도구는 즉각적인 도움을 제공하고, 문의 사항을 해결하며, 전반적인 참여도를 향상시켜 사용자 경험을 개선합니다. 효율적인 AI 기반 지원으로 고객 서비스를 혁신하여 만족도를 높이고 운영을 간소화하세요. 고객 커뮤니케이션의 미래를 수용하고, 오늘날 우리의 챗봇 위젯이 귀하의 지원 전략을 어떻게 혁신할 수 있는지 알아보세요!

자바스크립트 위젯 AI Chatbot

Find AI tools in YBX