메타, 메갈로돈 LLM 출시로 트랜스포머 아키텍처에 도전하다

Home AI 뉴스 메타, 메갈로돈 LLM 출시로 트랜스포머 아키텍처에 도전하다

메타와 남부 캘리포니아 대학교의 연구자들이 개발한 새로운 기계 학습 모델인 메갈로돈(Megalodon)은 대형 언어 모델(LLM)의 발전에 중요한 역할을 해온 트랜스포머 아키텍처의 주요 과제를 해결합니다. 이 모델은 수백만 개의 토큰까지 처리할 수 있는 맥락 창을 크게 확장하면서 메모리 사용량을 최소화했습니다. 실험 결과 메갈로돈은 방대한 텍스트를 처리하는 데 있어 기존 트랜스포머 모델보다 우수한 성능을 보였으며, 이는 메갈로돈이 트랜스포머 아키텍처의 잠재적 후계자로 자리 잡고 있음을 시사합니다.

맥락 창 이해하기

“맥락 창”은 모델이 동시에 처리할 수 있는 토큰 수를 의미합니다. 넓은 맥락 창은 LLM이 더 긴 대화에 참여하고, 방대한 문서를 분석하며, 문맥 내 학습을 향상시키는 데 도움을 줍니다. 그러나 트랜스포머의 맥락 창을 늘리면 상당한 계산 비용이 발생합니다. 트랜스포머는 “2차 복잡성”으로 작동하여 입력 크기를 두 배로 늘리면 메모리와 계산 시간이 각각 네 배 증가합니다. 이는 자기 주의(self-attention) 메커니즘에서 모든 입력 순서 요소가 서로 비교되는 구조에서 기인합니다.

메타의 메갈로돈은 2022년에 도입된 이동 평균 기반의 게이트드 주의(MEGA) 기법을 바탕으로 하여 주의 메커니즘을 최적화하고 모델의 복잡성을 크게 줄입니다. 이를 통해 LLM은 과도한 메모리 요구 없이 더 긴 입력을 처리할 수 있습니다. MEGA는 지수 이동 평균(EMA)을 통합하여 지역 토큰과 원거리 토큰 간의 관계의 중요성을 균형 있게 조정하며, 맥락이 확장됨에 따라 일관성을 보장합니다.

메갈로돈의 주요 혁신

메갈로돈은 몇 가지 구조적 수정으로 MEGA를 개선하여 전통적인 전체 주의 메커니즘과 성능을 일치시킵니다. “청크 단위 주의(chunk-wise attention)”를 사용하여 입력 순서를 고정된 블록으로 나누어 복잡성을 2차에서 선형으로 전환합니다. 이러한 접근 방식은 추가적인 병렬 처리를 가능하게 하여 모델 학습 속도를 증가시킵니다.

연구자들은 메갈로돈의 70억 매개변수 버전을 2조 개 토큰으로 훈련시켰으며, Llama-2-7B 및 13B 모델과 성능을 비교했습니다. 그 결과 메갈로돈-7B는 Llama-2-7B 훈련에 사용된 최신 트랜스포머 모델을 능가하며, 훈련 퍼플렉시티와 다양한 하위 작업에서 우수한 성능을 보였습니다. 특히 일부 경우에는 Llama-2-13B의 성능과 맞먹는 결과를 보였습니다.

메갈로돈은 Llama-2보다 다소 느린 속도로 4,000토큰의 맥락 창을 유지하면서도, 계산 효율성이 향상되어 32,000토큰의 맥락 길이에서 두드러진 성능을 발휘합니다. 초기 실험 결과는 메갈로돈이 무한한 길이의 시퀀스를 효과적으로 모델링할 수 있음을 시사합니다. 연구팀은 다양한 데이터 모달리티에서 소규모 실험에서 유망한 결과를 보고했으며, 메갈로돈을 다중 모달 응용 프로그램에 맞게 조정할 계획입니다. 메갈로돈 코드는 MIT 라이선스 하에 GitHub에서 제공되어 무제한으로 조정 및 상업적 사용이 가능합니다.

트랜스포머의 우위

대안 아키텍처에 대한 지속적인 탐색에도 불구하고, Mamba(상업적으로 AI21 Labs에서 사용) 및 MIT에서 개발된 액체 신경망과 같은 아키텍처와 비교할 때 트랜스포머는 여전히 언어 모델에서 선도적인 아키텍처로 자리잡고 있습니다. 메타는 메갈로돈과 같은 모델을 혁신하면서 동시에 Llama-3의 최근 출시를 포함하여 트랜스포머 라인업을 강화하고 있습니다.

새로운 아키텍처를 트랜스포머와 연결된 사용 가능한 광범위한 도구 및 라이브러리에 맞추는 것은 도전 과제가 됩니다. 이러한 도구는 모델 학습, 미세 조정 및 다양한 응용 프로그램과 장치에 대한 최적화를 용이하게 하여 트랜스포머에게 지속적인 우위를 제공합니다. 연구자들은 또한 트랜스포머 아키텍처의 계산 요구 사항을 완화하기 위해 수정하고 있습니다. 예를 들어, 구글의 인피니 어텐션(Inifini-attention)은 메모리 요구를 증가시키지 않고도 무제한 맥락 창을 지원하는 것을 목표로 하며, 현재 모델은 수십만 개의 토큰 입력을 처리할 수 있습니다.

AI 연구가 빠르게 발전함에 따라, 이 분야는 동적임을 인식하는 것이 중요합니다. 2017년 트랜스포머가 소개되었을 때, 그 깊은 영향력을 예측한 이는 많지 않았습니다. 미래의 모델이 트랜스포머를 능가할 가능성도 존재합니다.

일론 머스크의 '괜찮은' 리뷰, 메타의 라마 3 AI에 주목하다

마이크로소프트, VASA-1 공개: 음성과 노래로 생동감 있는 인물 헤드샷을 구현하는 AI 프레임워크

Most people like

SkyDeck AI

보안성이 강화된 생성형 AI 솔루션을 활용하여 창의성과 생산성을 높이세요.

인공지능 AI Productivity Tools

Polar

117.5K

간편하고 스마트한 Shopify 분석, 모두 한 곳에. 우리의 고급 플랫폼이 어떻게 전자상거래 데이터를 간소화하여 비즈니스 성장을 위한 실행 가능한 인사이트를 제공하는지 알아보세요.

쇼피파이 분석 AI Analytics Assistant

Maths-Whizz

141.3K

5세에서 13세 아동을 위해 특별히 설계된 AI 기반 가상 수학 튜터를 소개합니다. 이 혁신적인 도구는 개인화된 학습 경험을 제공하여 어린 학습자들이 수학 개념을 재미있게 이해할 수 있도록 돕습니다. 인터랙티브한 수업, 실시간 피드백, 맞춤형 연습 문제를 통해 AI 튜터는 자신감을 키우고 수학에 대한 사랑을 배양합니다. 자녀가 기본 산수나 더 고급 주제에 도움을 필요로 하든, 저희 가상 튜터는 개인의 학습 속도에 맞춰 조정되어 모든 어린이가 수학을 즐기고 접근할 수 있도록 합니다.

AI 가상 튜터 AI Coaching

API2D

17.8K

API2D는 다양한 AI 작업, 자연어 처리(NLP), 기계 학습(ML), 대화 생성 및 언어 번역을 원활하게 수행하도록 설계된 강력한 OpenAI API입니다. 이 다목적 도구는 고급 AI 기능을 통합하려는 개발자와 기업에 능력을 향상시킵니다.

API AI Tools Directory

Find AI tools in YBX