기업들이 생성적 AI를 도입하기 위해 급급해지는 가운데, 대형 언어 모델(LLM)의 정확성과 안전성에 대한 우려가 광범위한 기업 통합을 저해할 위험이 있습니다. 이러한 문제를 해결하기 위해 샌프란시스코 스타트업인 Patronus AI가 나섰습니다. 최근 1,700만 달러의 시리즈 A 자금을 확보하여 비용이 많이 들고 잠재적으로 위험한 LLM 오류를 자동으로 식별합니다. 이번 funding 라운드로 Patronus AI의 총 투자액은 2천만 달러로 증가하였으며, Notable Capital의 Glenn Solomon이 주도하고 Lightspeed Venture Partners, 전 DoorDash 임원 Gokul Rajaram, Factorial Capital, Datadog, 여러 미공개 기술 리더들이 참여했습니다.
Patronus AI는 전 Meta 머신러닝 전문가인 Anand Kannappan과 Rebecca Qian이 설립하였으며, LLM 출력에서 환각, 저작권 침해, 안전 위험 등의 문제를 탐지하기 위한 혁신적인 자동 평가 플랫폼을 개발했습니다. 자사의 독점 AI를 활용하여 모델 성능을 평가하고, 적대적 예제로 스트레스 테스트를 수행하며, 상세한 벤치마킹을 지원합니다. 이 모든 과정은 기업이 일반적으로 요구되는 수작업 없이 자동으로 이루어집니다.
Patronus AI의 CEO 인 Kannappan은 "우리 제품은 다양한 실수를 포착하는 데 뛰어납니다. 여기에는 환각, 저작권 문제, 안전 관련 위험, 브랜드 스타일과 톤 유지를 위한 맞춤형 기능이 포함됩니다."라고 말했습니다. OpenAI의 GPT-4와 Meta의 Llama 3와 같은 강력한 LLM의 출현은 실리콘밸리에서 이 기술의 생성적 능력을 활용하기 위한 경쟁을 촉발했습니다. 하지만 이와 함께 CNET의 오류가 많은 AI 생성 기사부터 LLM 부정확성으로 인해 연구 논문을 철회한 약물 발견 기업들에 이르는 주목할 만한 모델 실패가 발생했습니다.
이러한 실패는 현재 LLM의 시스템적 문제를 드러내며, Patronus AI는 이를 해결하고자 합니다. 최근 출시된 "CopyrightCatcher" API와 "FinanceBench" 벤치마크를 포함한 연구는 주요 모델들이 정확하고 사실 기반의 답변을 제공하는 데 있어 심각한 결함을 드러냅니다. "FinanceBench" 벤치마크에서 Patronus는 GPT-4와 같은 모델을 공공 SEC 제출 서류에 대한 금융 질의를 통해 평가했습니다. 결과는 충격적이었습니다: 최고의 성능을 기록한 모델이 연간 보고서를 검토했음에도 불구하고 질문의 단 19%만 올바로 답변했습니다. "CopyrightCatcher" API를 사용한 별도의 평가에서는 오픈 소스 LLM이 44%의 경우에 저작권이 있는 텍스트를 그대로 복제하는 것으로 밝혀졌습니다.
Patronus의 CTO인 Qian은 "최첨단 모델조차도 정확성에서 어려움을 겪고 있으며, 금융 상황에서는 90%의 성능을 기록하고 있습니다. 우리의 연구 결과는 오픈 소스 모델이 고위험 영역에서 20% 이상의 불안전한 응답을 생성함을 보여줍니다. 저작권 침해는 중대한 우려 사항입니다; 대형 출판사와 미디어 회사들은 경계를 늦추지 않아야 합니다."라고 강조했습니다.
Credo AI와 Weights & Biases와 같은 다른 스타트업들이 LLM 평가 도구를 개발하는 가운데, Patronus는 연구 중심 접근 방식으로 차별화를 이루고 있습니다. 그들의 핵심 기술은 LLM이 실패할 수 있는 특정 시나리오를 식별하기 위한 전용 평가 모델을 훈련하는 것입니다. Kannappan은 "다른 어떤 회사도 우리의 연구와 기술 깊이에 맞설 수 없습니다. 우리의 전략은 독창적이며, 평가 모델 훈련, 정렬 기법 개발 및 연구 발표에 뿌리를 두고 있습니다."라고 주장했습니다.
Patronus AI는 자동차, 교육, 금융, 소프트웨어 등 여러 산업에서 여러 포춘 500 기업들과 협력하여 안전하게 LLM을 구현하는 데 도움을 주고 있습니다. 새로운 자본 유입을 통해 Patronus는 연구, 엔지니어링 및 영업 팀을 확장하고 추가 벤치마크를 개발할 계획입니다. Patronus가 비전을 실현하면, 자동화된 LLM 평가가 기업에 필수적 요소가 되어 클라우드 채택을 가속하는 보안 감사와 유사한 역할을 하게 될 것입니다. Qian은 Patronus와의 검증이 코드의 유닛 테스트와 같은 일상이 되는 미래를 구상합니다.
그녀는 "우리 플랫폼은 법률부터 의료에 이르기까지 다양한 분야에 적용될 수 있는 다재다능함을 지니고 있습니다. 우리는 모든 산업의 기업들이 LLM을 활용하면서 그들의 특정 요구를 충족할 수 있도록 힘을 실어주고자 합니다."라고 설명했습니다. LLM 성능 검증의 복잡성에도 불구하고 Patronus는 AI 평가 진전을 위해 노력하고 있습니다. 자동화된 테스트의 한계를 극복하며, LLM을 실제 애플리케이션에 책임감 있게 배포할 수 있도록 합니다. Kannappan은 "생성 모델이 보여줄 수 있는 다양한 동작 때문에 LLM 성능 측정 자동화는 도전적입니다. 그러나 우리의 연구 기반 방법론은 수작업 테스트로는 식별할 수 없는 오류를 신뢰할 수 있고 확장 가능하게 찾아낼 수 있게 해줍니다."라고 인정했습니다.