대형 언어 모델(LLM)에서 크기의 영향
대형 언어 모델(LLM)에서 모델의 크기는 작동 효율성을 결정하는 중요한 요소입니다. 안정적인 확산 방식의 이미지 생성 AI 기술로 유명한 Stability AI는 가장 작은 모델 중 하나인 Stable LM 2 1.6B를 출범했습니다. 이 텍스트 생성 모델은 2023년 4월에 30억 및 70억 매개변수 버전과 함께 처음 선보였으며, 1.6B 모델은 2024년의 두 번째 출시로, 이전의 Stability AI의 Stable Code 3B에 이어 등장했습니다.
컴팩트한 Stable LM 2 모델 소개
새로운 Stable LM 2 1.6B는 개발자가 진입장벽을 낮추고 생성 AI 생태계에 더 적극적으로 참여할 수 있도록 설계되었습니다. 이 작지만 강력한 모델은 영어, 스페인어, 독일어, 이탈리아어, 프랑스어, 포르투갈어, 네덜란드어 등 7개 언어에서 다국어 텍스트 생성을 지원합니다. 최신 알고리즘 언어 모델링 기술을 활용하여 속도와 성능 간의 최적의 균형을 이룹니다.
Stability AI의 언어팀 책임자 카를로스 리켈메는 “일반적으로 유사한 데이터로 훈련된 대형 모델이 소형 모델보다 성능이 우수하지만, 향상된 알고리즘과 품질 높은 데이터로 훈련이 이루어지면 종종 소형 모델이 더 좋은 성과를 낼 수 있다”고 밝혔습니다.
왜 소형 모델이 대형 모델보다 우수할 수 있는가
Stability AI에 따르면, Stable LM 2 1.6B는 20억 매개변수 이하의 소형 언어 모델 중 많은 모델을 다양한 벤치마크에서 초월하며, 마이크로소프트의 Phi-2(27억), TinyLlama 11억, Falcon 10억 등과 비교해도 그 성능이 탁월합니다. 놀랍게도 Stability AI의 이전 Stable LM 3B 모델보다도 성능이 뛰어납니다.
리켈메는 “Stable LM 2 1.6B는 몇 개월 전에 훈련된 일부 대형 모델보다 더 뛰어난 성능을 보여준다”며 “컴퓨팅 기술과 마찬가지로 시간이 지남에 따라 모델이 더 작고 얇아지며 개선되고 있다”고 설명했습니다.
한계 인식하기
비록 소형 Stable LM 2 1.6B는 인상적인 기능을 갖추고 있지만, 크기와 관련된 몇 가지 한계도 존재합니다. Stability AI는 “소형 및 저용량 언어 모델의 특성상 Stable LM 2 1.6B는 높은 환각 비율이나 잠재적인 유해 언어와 같은 일반적인 문제를 보일 수 있다”고 경고합니다.
투명성과 데이터 훈련 향상
Stability AI는 여러 달 동안 더 작지만 강력한 LLM 옵션에 집중해왔습니다. 2023년 12월, 초기 버전보다 더 작은 프레임워크 내에서 성능을 향상시키기 위한 StableLM Zephyr 3B 모델을 출시했습니다.
리켈메는 새로운 Stable LM 2 모델이 영어 외에도 6개 언어로 된 다국어 문서를 포함한 더 많은 데이터를 활용한다고 설명했습니다. 그는 훈련 중 데이터 제시 순서의 중요성을 강조하며, 다양한 데이터 유형이 서로 다른 훈련 단계에서 결과를 개선할 수 있다고 밝혔습니다.
개발을 보다 용이하게 하기 위해 Stability AI는 이러한 모델을 사전 훈련 및 미세 조정된 형식으로 출시하며 연구자들이 “사전 훈련 쿨다운 전 마지막 모델 체크포인트”라고 설명하는 모델도 포함하고 있습니다.
리켈메는 “우리의 목표는 개발자들이 현재 모델을 기반으로 혁신하고 구축할 수 있는 도구를 제공하는 것”이라고 전했습니다. “우리는 실험을 위한 특정 반쯤 조리된 모델을 제공하고 있습니다.”
그는 훈련 과정에 대해 설명하며 모델이 순차적으로 업데이트됨에 따라 성능이 개선된다고 말했습니다. 초기 모델은 지식이 부족하지만, 이후 버전은 데이터에서 통찰력을 축적됩니다. 그러나 리켈메는 훈련이 끝날 무렵 모델이 덜 탄력적이 될 수 있다고 덧붙였습니다.
“우리는 사용자가 여러 작업이나 데이터 세트에 특화할 수 있도록 모델을 사실상 최종 훈련 형태로 제공하기로 결정했습니다. 성공을 보장할 수는 없지만, 새로운 도구를 창의적인 방식으로 활용할 사람들의 잠재력을 믿습니다.”