생성적 AI 시대에서 대규모 언어 모델(LLM)의 안전성을 확보하는 것은 다양한 작업에서의 성능만큼이나 중요합니다. 전 세계의 팀들은 이러한 필요성을 점점 더 인식하고 있으며, 사용자 경험의 저하, 기회 손실, 규제 처벌 등을 초래할 수 있는 문제를 식별하고 해결하기 위해 테스트 및 평가 과정을 강화하고 있습니다.
오픈 소스 모델과 폐쇄형 모델이 빠르게 진화함에 따라, 가장 안전한 LLM을 선택하는 것은 어려울 수 있습니다. Enkrypt는 LLM 안전 리더보드를 제공하여 이 문제를 해결합니다. 보스턴에 위치한 이 스타트업은 생성적 AI의 안전한 배포를 위한 제어 계층을 제공하며, 안전성과 신뢰성 위험에 대한 취약성을 기준으로 LLM을 평가하고 순위를 매깁니다.
리더보드는 GPT 및 Claude 계열의 여러 고성능 언어 모델을 포함해 안전하고 신뢰할 수 있는 LLM 선택과 구현 최적화에 필수적인 위험 요소에 대한 귀중한 통찰력을 제공합니다.
Enkrypt의 LLM 안전 리더보드 이해하기
기업이 채팅봇과 같은 애플리케이션에 LLM을 배포할 때, 내부 테스트를 지속적으로 수행하여 탈옥 및 편향된 출력과 같은 안전 위험을 식별합니다. 작은 오류조차도 데이터 유출이나 편향된 응답처럼 큰 문제로 이어질 수 있으며, 이는 Google Gemini 챗봇 사건에서도 나타난 바 있습니다. 이러한 위험은 핀테크와 헬스케어와 같은 규제 산업에서 더욱 두드러질 수 있습니다.
2023년에 설립된 Enkrypt는 Sentry라는 포괄적인 솔루션을 통해 생성적 AI 애플리케이션의 취약점을 발견하고 이를 완화하기 위한 자동화된 안전 장치를 구현함으로써 이러한 문제를 해결하고 있습니다. LLM 안전 리더보드는 이 이니셔티브의 다음 단계로, 가장 안전한 모델을 초기에 선택하는 데 필요한 통찰력을 제공합니다.
리더보드는 다양한 시나리오에서 엄격한 테스트를 통해 개발되었으며, 최대 36개의 LLM(오픈 및 폐쇄 소스 포함)을 다양한 안전 및 보안 지표에 따라 평가합니다. 이 평가는 유해하거나 편향된, 부적절한 콘텐츠 생성을 방지하는 모델의 능력과 악성 소프트웨어 및 프롬프트 주입 공격을 저지하는 능력을 포함합니다.
가장 안전한 LLM의 주인공은?
5월 8일 기준으로, Enkrypt의 리더보드는 OpenAI의 GPT-4-Turbo를 가장 안전한 LLM으로 선정하였으며, 위험 점수는 15.23으로 가장 낮습니다. 이 모델은 탈옥 공격에 효과적으로 방어하며 독성 출력을 생성하는 빈도는 0.86%에 불과합니다. 하지만 편향 및 악성 소프트웨어 관련 문제는 각각 38.27%와 21.78%로 발생하고 있습니다.
Meta의 Llama2 및 Llama 3 모델이 뒤를 잇고 있으며, 위험 점수는 23.09에서 35.69 사이입니다. Anthropic의 Claude 3 Haiku는 10위에 위치하며 위험 점수는 34.83으로, 테스트에서 괜찮은 성능을 보였으나 편향된 응답이 90% 이상 발생했습니다.
리더보드 하단에는 Saul Instruct-V1과 Microsoft의 새로운 Phi3-Mini-4K 모델이 각각 60.44와 54.16의 위험 점수를 기록하며 최하위를 차지하고 있습니다. Mixtral 8X22B 및 Snowflake Arctic도 각각 28과 27로 낮은 순위를 받았습니다.
이 목록은 모델이 개선되고 새로운 모델이 등장함에 따라 변동될 수 있음을 주목할 필요가 있습니다. Enkrypt는 이러한 발전을 반영하기 위해 리더보드를 정기적으로 업데이트할 계획입니다.
“우리의 리더보드는 새로운 모델 출시 후 제로 데이에 업데이트되며, 모델 업데이트에 대해서는 주간으로 진행될 것입니다. AI 안전 연구가 발전하고 새로운 방법이 개발됨에 따라 리더보드는 지속적으로 최신 발견을 반영할 것입니다. 이는 리소스로서의 연관성과 권위를 보장합니다,”라고 Enkrypt의 공동 창립자 Sahi Agarwal은 말했습니다.
Agarwal은 이 진화하는 목록이 기업 팀들이 인기 있는 LLM의 강점과 약점을 탐색하는 데 유용한 도구가 될 것이라며, 편향 완화나 프롬프트 주입 방지와 같은 특정 사용 사례에 따라 정보에 기반한 결정을 내릴 수 있도록 돕고자 합니다.
“우리의 리더보드를 AI 전략에 통합함으로써 기술 역량을 강화하고 윤리적 기준을 유지하여 경쟁 우위를 키우고 신뢰를 형성할 수 있습니다. 위험/안전/거버넌스 팀은 리더보드를 활용해 제품 및 엔지니어링 팀이 사용할 수 있는 안전한 모델을 식별할 수 있습니다. 현재 이들은 공공 성능 지표에만 의존하고 있는 종합적인 안전 정보를 결여하고 있습니다. 리더보드와 레드 팀 평가 보고서는 모델 배포를 위한 필수 안전 권고를 제공합니다,”라고 덧붙였습니다.