마이크로소프트와 베이항, LLM 효율적 미세 조정을 위한 첨단 기법 MoRA 공개

마이크로소프트와 베이항 대학교의 연구자들이 대형 언어 모델(LLMs)의 미세 조정을 위한 비용 효율적인 기술을 개발했습니다. 이 기술은 일반적인 비용을 크게 줄여주며, '모라(MoRA)'라는 이름을 붙였습니다. 이 새로운 매개변수 효율적인 미세 조정(PEFT) 방법은 로우랭크 적응(LoRA)과 같은 기존 기법의 한계를 극복하는 데 초점을 맞추고 있습니다. MoRA는 새로운 지식을 습득해야 하는 작업에 모델을 미세 조정하는 데 특히 유리합니다. PEFT 전략이 기업 환경에서 주목받고 있는 가운데, MoRA는 LLM 애플리케이션 개발자들에게 귀중한 도구로 자리 잡고 있습니다.

PEFT 및 LoRA 이해하기

전통적인 미세 조정은 LLM의 모든 매개변수를 조정해야 하며, 이러한 모델은 보통 수십억 개의 매개변수를 포함하기 때문에 비용과 시간이 많이 소요될 수 있습니다. 하지만 PEFT 기법은 작업에 필요한 최소한의 매개변수 집합을 식별함으로써 이 과정을 최적화합니다. LoRA는 로우랭크 행렬을 사용하여 매개변수를 업데이트 할 수 있어 메모리 요구 사항을 줄이고 미세 조정된 모델의 저장 및 배포를 용이하게 하여 널리 사용되고 있습니다. 그러나 LoRA는 수학적 추론 및 지속적인 재훈련과 같은 복잡한 작업에서 모델이 새로운 정보를 습득하고 유지할 수 있는 능력이 제한되어 약점을 보입니다. 연구자들은 “이러한 한계가 미세 조정을 통한 새로운 정보 저장 능력을 제한한다”고 주장했습니다.

모라 소개

MoRA는 LoRA보다 효율적인 미세 조정 과정을 가능하게 하며, 로우랭크 행렬 대신 단일 정방 행렬에 의존합니다. MoRA의 핵심 개념은 훈련 가능한 매개변수를 활용하여 모델의 원래 차원과 호환되는 최대한의 순위를 달성하는 것입니다. MoRA는 LoRA와 달리 입력 및 출력 차원이 원래 모델과 일치하지 않아 단순한 행렬 곱셈이 불가능합니다. 이를 해결하기 위해 연구자들은 두 공간 간의 입력 변환을 용이하게 하는 압축/복원 함수를 개발했으며, MoRA는 다양한 크기의 LLM에 원활하게 통합될 수 있습니다. 이 정방 행렬은 MoRA가 동등한 크기의 LoRA 모델보다 새로운 지식을 학습하고 암기하는 능력을 향상시킵니다.

모라의 성능

비교 연구에서 MoRA는 기억 작업에서 LoRA보다 consistently 좋은 성능을 보였으며, 적은 매개변수와 훈련 단계로 완전히 미세 조정된 모델과 유사한 성능에 근접했습니다. 연구자들은 MoRA의 손실 곡선이 지식 기억 작업에 대한 완전 미세 조정과 밀접하게 일치한다고 관찰했습니다. “우리의 방법은 동일한 수의 훈련 가능한 매개변수로 LoRA보다 상당한 개선을 보여주며, 높은 순위 업데이트의 이점을 누리고 있습니다”라고 연구자들은 언급했습니다.

명령 조정 및 수학적 추론 임무는 MoRA와 LoRA의 성능이 거의 비슷했습니다. 그러나 생물 의학 및 금융과 같은 지속적인 재훈련 시나리오에서 MoRA는 높은 순위 업데이트 능력 덕분에 새로운 정보 기억에서 뛰어난 성능을 발휘했습니다. 연구자들은 MoRA 어댑터의 순위를 높이면 수학적 추론 작업에서 PEFT와 완전 미세 조정 간의 성능 차이를 줄일 수 있음을 언급했습니다. 이는 훈련 및 저장 요구 사항이 증가할 수 있다는 단점이 있습니다.

기업에서의 PEFT의 역할

미세 조정은 LLM의 기업 애플리케이션에 필수적입니다. 이는 LLM의 능력과 정확성을 강화하여 조직이 더 비싼 고급 모델이 필요한 작업에 소규모 모델을 활용할 수 있도록 합니다. 현재 LoRA와 그 변형들은 매개변수 효율적인 미세 조정의 기준으로 여겨지며, LoRA 어댑터를 생성하기 위한 강력한 도구 및 플랫폼 생태계에 의해 지원됩니다. 예를 들어, S-LoRA는 개발자가 단일 GPU에서 여러 LoRA 어댑터를 실행할 수 있도록 하여 개별 사용자 콘텐츠에 맞춘 여러 미세 조정된 LLM을 필요로 하는 애플리케이션을 용이하게 합니다.

연구자들은 MoRA를 LoRA와 호환되는 오픈 소스 구현으로 제공하여, 새로운 지식으로 기본 모델을 향상시키고자 하는 기업들에게 중요한 자원으로 자리 잡게 되고 있습니다.

Most people like

Find AI tools in YBX