AI 경쟁이 치열해지는 가운데, 대형 기술 기업들이 점점 더 큰 언어 모델(LLM)을 개발하려는 과정을 거치면서 새로운 트렌드가 대두되고 있다: 작음이 곧 새로움이다. LLM의 발전이 정체기를 맞이하고 있는 지금, 연구자들과 개발자들은 소형 언어 모델(SLM)로 시선을 돌리고 있다. 이 컴팩트하고 효율적이며 적응성 있는 모델들이 AI 환경을 재정의하고 있으며, ‘크기가 항상 좋다’는 신념에 도전을 하고 있다.
LLM의 정체 여부?
Vellum과 HuggingFace의 최근 성능 비교 결과에 따르면, LLM 간의 격차가 줄어들고 있다. 특히 다지선다형 질문, 추론, 수학 문제 등에서 상위 모델들 간의 성능 차이가 미미하게 나타나고 있다. 예를 들어, 다지선다형 시나리오에서 Claude 3 Opus, GPT-4, Gemini Ultra 모두 83% 이상의 점수를 기록했다. 추론 작업에서도 Claude 3 Opus, GPT-4, Gemini 1.5 Pro가 92% 이상의 정확도를 보였다.
흥미롭게도, Mixtral 8x7B와 Llama 2 – 70B 같은 소형 모델이 특정 분야에서 우수한 결과를 내며 몇몇 대형 모델보다 더 나은 성능을 보이고 있다. 이는 모델의 구조, 훈련 데이터, 미세 조정 기술이 성능에 중요한 역할을 할 수 있다는 것을 시사하며, 크기가 가장 중요한 결정 요소라는 믿음에 도전하고 있다.
Gary Marcus는 “새로운 모델들이 GPT-4를 약간 초월할 수 있지만, 1년 이상 큰 발전은 없었다”고 언급하며, 최근 연구가 모델 성능의 수렴을 시사한다고 강조했다.
성능 격차가 줄어들면서 LLM이 실제로 정체기를 맞이하고 있는지에 대한 질문이 제기된다. 이러한 추세가 계속된다면, 미래의 AI 개발은 단순히 모델 크기를 늘리는 것이 아니라, 보다 효율적이고 특화된 아키텍처를 탐색하는 방향으로 전환될 수 있다.
LLM 접근 방식의 단점
LLM은 강력하지만 여러 가지 단점이 있다. 이러한 모델의 훈련에는 방대한 데이터 세트와 막대한 계산 자원이 필요해, 매우 자원 집약적인 과정이 된다. 예를 들어, OpenAI의 CEO인 Sam Altman은 GPT-4 훈련에 최소 1억 달러가 소요되었다고 밝혔다. LLM의 복잡성은 개발자들에게 가파른 학습 곡선을 만들어 접근성을 저해하고, 기업들이 단일 머신러닝 모델을 배포하는 데 90일 이상 걸릴 수 있어 혁신이 늦어진다.
또한 LLM은 "환각"을 생성하는 경향이 있어, 그럴 듯하지만 잘못된 출력을 만들어 내는 문제가 있다. 이는 LLM이 진정한 이해 없이 훈련 패턴을 기반으로 단어를 예측하기 때문에 발생한다. 따라서 부정확하거나 비논리적인 출력이 안도감을 가지고 생성될 수 있어, 의료나 자율 주행과 같은 고위험 애플리케이션에서 위험을 초래할 수 있다.
LLM의 대규모 및 불투명한 특성은 결과에 대한 해석과 디버깅을 복잡하게 만들어 신뢰성을 보장하는 데 필수적이다. 더불어, 편향된 훈련 데이터는 해로운 결과를 초래할 수 있으며, LLM의 신뢰성을 높이기 위한 노력이 역설적으로 모델의 효과성을 저하시킬 수 있다.
소형 언어 모델(SLM)의 등장
SLM은 LLM이 제기하는 많은 문제 해결책을 제시한다. 매개변수가 적고 단순한 설계를 가진 SLM은 데이터와 훈련 시간이 적게 소모되어, LLM이 며칠이 걸리는 것에 비해 보통 몇 분에서 몇 시간 만에 훈련이 가능하다. 이 효율성 덕분에 작은 장치에서도 쉽게 구현할 수 있다.
SLM의 주요 장점 중 하나는 특정 애플리케이션에 맞게 조정할 수 있는 적응성이다. 감성 분석이나 특정 분야의 질문 응답과 같은 도메인에 맞게 미세 조정함으로써, 일반 모델보다 우수한 성과를 내며 효율성을 높인다.
더 나아가 SLM은 개인 정보 보호와 보안성을 강화하는 이점이 있다. 구조가 간단하여 감사가 용이하고 취약점이 발생할 가능성이 낮아, 의료 및 금융 분야에서 특히 중요하다. SLM은 컴퓨팅 요구가 적어 장치에서 로컬로 실행할 수 있어 데이터 보안을 개선하고 데이터 전송 중 노출 위험을 최소화한다.
SLM은 일반적으로 해당 애플리케이션에 적합한 좁은 데이터 세트로 훈련되기 때문에 환각이 덜 발생한다. 이 집중된 접근법은 관련 없는 출력을 생성할 가능성을 줄여 보다 신뢰성 있는 성능을 제공한다.
HuggingFace의 CEO인 Clem Delangue는 SLM이 최대 99%의 사용 사례를 효과적으로 해결할 수 있다고 제안하며, 2024년에는 SLM의 채택이 급증할 것이라고 예측했다. HuggingFace는 Google과 협력하여 자사의 플랫폼을 Google의 Vertex AI에 통합하여 수천 개의 모델을 신속하게 배포할 수 있다.
Google의 Gemma 이니셔티브
OpenAI와의 LLM 경쟁에서 초기에는 뒤쳐졌던 Google은 현재 SLM 개발에 적극적으로 나서고 있다. 지난 2월, Google은 효율적이고 사용자 친화적인 소형 언어 모델인 Gemma를 출시했다. 이 모델들은 스마트폰 및 노트북과 같은 일반 장치에서도 작동할 수 있으며, 대규모 자원이 필요하지 않다.
출시 이후 Gemma 모델은 HuggingFace에서 40만 회 이상 다운로드되며 혁신적인 프로젝트들을 촉진하고 있다. 주목할 만한 개발 중 하나는 Gemma 2B와 Google의 SigLIP을 결합한 강력한 이미지 및 언어 모델인 Cerule로, 적은 데이터로도 우수한 성능을 발휘할 수 있다. 또 다른 예시는 코딩 및 수학적 추론을 목표로 한 특수화된 버전인 CodeGemma로, 다양한 코딩 관련 활동을 위한 맞춤형 모델을 제공한다.
SLM의 혁신적 가능성
AI 커뮤니티가 SLM의 장점에 대해 깊이 탐구함에 따라, 더 빠른 개발 주기, 향상된 효율성, 그리고 특정 솔루션의 이점이 더욱 명백해지고 있다. SLM은 비용 효율적이고 특정한 애플리케이션을 통해 AI 접근성을 민주화하고 다양한 산업에서 혁신을 촉진할 수 있는 잠재력을 지닌다.
SLM을 엣지에서 배포하면 금융, 엔터테인먼트, 자동차, 교육, 전자상거래, 의료 등 여러 분야에서 실시간 개인화되고 안전한 애플리케이션을 위한 가능성을 열 수 있다. 데이터를 로컬에서 처리하고 클라우드 인프라에 대한 의존도를 최소화함으로써 데이터 프라이버시와 사용자 경험을 향상시킨다.
LLM이 계산 요구와 성능 정체 문제에 직면함에 따라, SLM의 출현은 AI 생태계를 빠른 속도로 발전시키는 데 기여할 것으로 기대된다.