Abacus AI는 AI 기반의 종합 머신러닝(ML) 및 LLMOps 플랫폼을 개발하는 스타트업으로, 새롭게 검열되지 않은 오픈 소스 대형 언어 모델(LLM)인 Liberated-Qwen1.5-72B를 출시했습니다. 이 모델은 시스템 프롬프트에 맞춰 조정되어 실제 애플리케이션에서의 사용성을 높였습니다.
Liberated-Qwen1.5-72B는 Alibaba Group의 연구원들이 만든 Qwen1.5-72B 변환기 기반 디코더 전용 언어 모델에 기반하고 있습니다. 시스템 프롬프트를 따르는 최적화된 능력 덕분에 다른 오픈 소스 LLM과 차별화되며, 고객 대면 챗봇과 같은 다양한 사용 사례에 더 적합합니다.
Abacus의 CEO Bindu Reddy는 이 모델을 성능과 시스템 지침 준수 측면에서 세계에서 가장 효과적인 검열 없은 LLM으로 설명합니다.
LLM에서 시스템 프롬프트 준수의 중요성
기업들이 LLM을 고객 지원과 같은 업무에 점점 더 많이 통합함에 따라 AI 상호작용에 대한 통제 유지가 중요합니다. 사용자는 종종 여러 차례의 대화를 나누며, 적절한 제약 없이는 AI가 원래 역할에서 벗어날 수 있습니다. 예를 들어, 한 사용자는 챗봇을 잘못 유도해 $1의 가격으로 2024 Chevy Tahoe를 받아들이게 했으며, AI는 이를 법적으로 구속력 있는 거래로 잘못 확인했습니다.
이러한 undesirable 상황을 예방하기 위해서는 시스템 프롬프트에 대한 엄격한 준수가 필수적입니다. 그러나 시장의 많은 오픈 소스 모델은 이러한 수준의 준수를 유지하는 데 어려움을 겪고 있습니다. Abacus는 Liberated-Qwen1.5-72B로 이를 개선하고자 합니다.
개발팀은 Mistral-Medium과 Dolphin-2.7-mixtral-8x7b로 생성된 7,000개의 합성 대화로 구성된 새로운 오픈 소스 데이터셋인 SystemChat을 사용하여 모델을 세부 조정했습니다. 이 훈련 덕분에 모델은 대화 중 사용자 요청과 충돌할 때도 시스템 메시지를 따를 수 있습니다. Reddy는 X에서 “이 데이터셋으로 모델을 세부 조정하면 사용성이 크게 향상되고 해킹이 어렵습니다!”라고 강조했습니다.
성능 통찰력
MT-Bench와 HumanEval 기준에서의 테스트에 따르면, Liberated-Qwen1.5-72B는 이전의 최상급 오픈 소스 모델인 Qwen1.5-72B 챗보다 약간 우수한 성적을 기록했습니다. 두 모델의 점수는 각각 8.45000과 8.44375였습니다. 또한, 세계 지식과 문제 해결 능력을 평가하는 MMLU 기준에서 모델은 77.13점을 얻어, Qwen1.5-72B 및 Abacus의 Smaug-72B와 같은 다른 고성능 모델과 견줄 만한 결과를 보였습니다.
Liberated-Qwen1.5-72B는 효과적이지만 완전히 검열되지 않으며, 내장된 안전 장치가 없습니다. 이는 민감한 주제를 포함한 모든 질문에 답변할 수 있음을 의미하나, 여전히 시스템 메시지를 준수합니다. Abacus는 사용자가 모델을 서비스에 배포하기 전에 자체 정렬 계층을 구현할 것을 권장합니다.
현재 Liberated-Qwen1.5-72B는 MIT 라이선스와 거의 유사한 tongyi-qianwen 라이선스 하에 제공되고 있습니다. Reddy는 모델 성능 향상, 특히 HumanEval에 대한 업그레이드 계획과 SystemChat 데이터셋을 Smaug 데이터셋과 결합하여 더 발전된 모델을 개발할 계획을 밝혔습니다.
향후 몇 주 안에 Abacus는 MT-bench 점수를 개선하여 HumanEval 대시보드에서 최고 위치를 목표로 하고 있습니다.