갈릴레오, AI 평가를 혁신하는 루나: 기업을 위한 게임 체인저
갈릴레오가 기업용 생성 AI의 선두주자로서, 비즈니스가 생성 AI 시스템을 평가하는 방식을 혁신할 '갈릴레오 루나'라는 특별한 평가 기반 모델(Evaluation Foundation Models, EFMs) 패키지를 출시했습니다. 루나는 기존의 생산 환경에서 생성 AI 채택을 방해해온 속도, 비용, 정확성의 중요한 문제들을 해결합니다.
“갈릴레오는 기존의 생성 AI 평가 방법의 단점을 극복하기 위해 루나를 개발했습니다. 이러한 방법들은 종종 느리고, 비용이 많이 들며, 부정확했습니다,”라고 갈릴레오의 공동 창립자이자 CEO인 비크람 차터지가 말했습니다. “우리는 생산 환경에서 초저지연, 비용 효율적이며 고정밀 평가의 필요성을 인식했습니다.”
AI 평가에서의 중요한 이정표
루나의 출시는 2021년 초부터 기업 GenAI를 선도해 온 갈릴레오의 중요한 진전을 의미합니다. 루나의 개발을 위한 거의 1년에 걸친 철저한 연구 및 개발 결과가 담겨 있습니다.
루나는 벤치마크 테스트에서 AUROC 점수 0.78을 달성하며, GPT-3.5, Trulens Groundedness, RAGAS Faithfulness와 같은 주요 경쟁자를 능가하는 뛰어난 성능을 보여줍니다.
목적에 맞춘 모델로 평가 기준 새로 정의
루나의 혁신의 핵심에는 환각 탐지, 맥락 품질 평가, 데이터 유출 방지, 악성 프롬프트 식별 등의 평가 작업을 위해 특별히 설계된 소형 언어 모델이 있습니다. 이러한 전용 모델은 속도, 비용, 정확성의 세 가지 주요 지표에서 루나가 탁월한 성과를 낼 수 있게 합니다.
“맞춤형 소형 언어 모델을 활용함으로써, 루나는 GPT-3.5보다 97% 저렴하고 11배 빠른 평가를 수행합니다,”라고 차터지가 설명했습니다. 또한, 루나는 환각 및 개인 식별 정보(PII) 같은 문제 감지에서 이전 방법보다 최대 20% 높은 성능을 보입니다.
매달 100만 쿼리를 평가하는 비용 분석에서, 루나는 단 175달러의 비용으로, GPT-3.5(6,248달러), RAGAS Faithfulness(7,994달러), Trulens Groundedness(16,641달러)보다 현저히 비용 효율적입니다.
전통적 데이터셋 없이 혁신
루나의 두드러진 특징은 전통적인 진실 데이터셇 없이 기능할 수 있는 능력입니다. 다양한 도메인 특정 데이터셋으로 정제된 사전 훈련된 평가 모델을 활용하여, 루나는 시간 소모적인 맞춤 테스트 세트 필요성을 제거하면서 평가 과정을 간소화합니다.
루나의 잠재적 응용 분야는 방대합니다. 차터지는 의료, 금융, 통신과 같은 높은 신뢰성이 요구되는 산업에서의 효과를 강조했습니다. “루나는 매달 수백만 건의 쿼리를 처리하는 대규모 기업 애플리케이션에 특히 강력합니다,”라고 덧붙였습니다.
비교 불가한 속도와 지속적 개선
갈릴레오의 루나는 뛰어난 속도를 제공하여 단일 쿼리를 0.232초 만에 처리합니다. 이는 GPT-3.5(2.5초)와 RAGAS Faithfulness(5.4초)보다 상당한 개선입니다.
루나의 사용 사례는 실시간 AI 출력 모니터링에서 챗봇 상호작용 안전 보장까지 다양합니다. 갈릴레오의 파인 튜닝(Fine Tune) 제품을 통해 루나는 특정 고객 요구에 맞춰 커스터마이즈 되어, 제약 및 금융 서비스와 같은 중요 분야에서 95% 이상의 정확도를 달성할 수 있습니다.
생성 AI 환경이 진화함에 따라, 갈릴레오는 루나로 계속 혁신을 추구하며, 작업 지원 확장, 정확성 향상, 비용 및 지연 시간 축소에 주력하고 있습니다.
“갈릴레오는 AI 평가의 발전에 헌신하며, 조직이 신뢰할 수 있는 AI 솔루션을 배포할 수 있도록 돕고 있습니다,”라고 차터지가 밝혔습니다. “생성 AI가 지속적으로 진화함에 따라, 우리는 고객에게 사용자에게 신뢰감을 줄 수 있는 최첨단 기능을 제공할 것입니다.”
루나 출시는 갈릴레오의 기업 생성 AI 평가에서의 선도적인 입지를 더욱 강화했습니다. 기업들이 생성 AI의 잠재력을 활용하려는 가운데, 루나의 빠르고 경제적이며 정확한 평가는 이 혁신적인 기술의 광범위한 채택을 이끄는 데 중요한 역할을 할 것입니다.