기업들은 생성적 AI에 대한 낙관론을 가지고 있으며, 챗봇에서 검색 도구에 이르기까지 다양한 응용 프로그램 개발에 수십억 달러를 투자하고 있습니다. 거의 모든 주요 기업이 생성적 AI 프로젝트를 진행하고 있지만, AI에 대한 투자와 실제 운영에서의 성공적인 배치 사이에는 중요한 차이가 있습니다.
캘리포니아 기반 스타트업 Maxim은 구글과 Postman 출신의 Vaibhavi Gangwar와 Akshay Deo가 설립한 기업으로, 이러한 간극을 해소하기 위한 종합 평가 및 관찰 플랫폼을 선보였습니다. 이 회사는 Elevation Capital 및 기타 엔젤 투자자로부터 300만 달러의 자금을 확보했다고 발표했습니다.
Maxim은 대형 언어 모델(LLM) 기반 AI 응용 프로그램 개발에서 개발자들이 직면하는 중요한 과제인 개발 생애주기 전반에 걸친 다양한 구성 요소의 모니터링 문제를 해결합니다. 사소한 오류조차 프로젝트의 신뢰성과 안정성을 저해하고, 이는 납기 지연으로 이어질 수 있습니다. Maxim의 플랫폼은 출시 전과 후에 AI의 품질과 안전성을 검사하고 개선하는 데 집중하여, 조직들이 AI 응용 프로그램 생애주기를 간소화하고 고품질 제품을 신속하게 제공할 수 있도록 돕습니다.
생성적 AI 응용 프로그램 개발의 도전 과제
역사적으로 소프트웨어 개발은 품질과 보안을 향상시키기 위해 표준화된 테스트 및 반복 프로세스를 기반으로 한 결정론적 접근을 따랐습니다. 하지만, 생성적 AI의 도입은 다양한 변수를 가져오며 비결정론적 패러다임으로 전환되었습니다. 개발자들은 모델, 데이터, 사용자 질문 프레이밍 등 여러 요소를 관리하는 동시에 품질, 안전성 및 성능을 보장해야 합니다.
조직들은 이러한 평가 문제에 대해 두 가지 주요 방법으로 대응합니다: 각 변수를 감독할 인재를 고용하거나 내부 도구를 개발하는 것입니다. 하지만 이 두 방법 모두 비용을 증가시키고 핵심 비즈니스 기능에서 주의를 분산시킬 수 있습니다.
이러한 필요성을 인지한 Gangwar와 Deo는 생성적 AI 스택의 모델과 애플리케이션 계층 간 간극을 메우기 위해 Maxim을 출범시켰습니다. 이 플랫폼은 프롬프트 엔지니어링 및 출시 전 테스트부터 출시 후 모니터링 및 최적화까지 AI 개발 생애주기 전반에 걸쳐 포괄적인 평가를 제공합니다.
Gangwar는 Maxim의 플랫폼이 네 가지 핵심 구성 요소로 이루어져 있다고 설명합니다: 실험 스위트, 평가 도구 모음, 가시성, 데이터 엔진입니다.
실험 스위트는 프롬프트 CMS, IDE, 시각적 워크플로우 빌더 및 외부 데이터 소스와의 연결기를 포함하여 팀이 프롬프트, 모델 및 매개변수에 대한 효과적인 반복 작업을 수행할 수 있도록 지원합니다. 예를 들어, 팀은 고객 서비스 챗봇에 대해 다양한 모델에서 다른 프롬프트를 실험할 수 있습니다.
평가 도구 모음은 AI 기반 및 인간 평가를 위한 통합 프레임워크를 제공하여 팀이 포괄적인 테스트를 통해 개선 또는 퇴보를 정량적으로 평가할 수 있도록 합니다. 결과는 톤, 정확성, 유해성 및 관련성과 같은 메트릭을 포함한 대시보드에서 시각화됩니다.
가시성은 출시 후 단계에서 중요한 역할을 하며, 실시간 생산 로그 모니터링 및 자동 평가를 통해 라이브 문제를 식별하고 해결하여 품질 기준을 충족하도록 합니다. Gangwar는 "사용자는 생산 로그에서 다양한 품질, 안전성 및 보안 신호에 대한 자동 제어를 설정할 수 있습니다. 또한 성과, 비용 및 품질과 같은 중요한 메트릭에서 퇴보에 대한 실시간 경고를 설정할 수 있습니다."라고 말합니다.
가시성 스위트의 통찰력을 활용하여 사용자는 문제를 신속하게 해결할 수 있습니다. 데이터 품질에 문제가 있다면, 데이터 엔진을 통해 데이터 세트를 원활하게 큐레이션하고 보강하여 미세 조정할 수 있습니다.
신속한 응용 프로그램 배포 가속화
아직 초기 단계에 있지만, Maxim은 "수십 개"의 초기 파트너들이 AI 제품을 테스트, 반복 및 배포하는 데 이전보다 5배 더 빠른 속도를 지원했다고 주장합니다. 특별히 평가 문제에 직면한 B2B 기술, 생성적 AI 서비스, BFSI 및 Edtech 분야를 대상으로 하고 있습니다. Maxim은 운영을 확장하면서 플랫폼 기능을 향상시킬 계획이며, 중소기업 및 대기업 고객에 집중할 것입니다.
Maxim의 플랫폼은 역할 기반 접근 제어, 규정 준수, 팀 협업 및 가상 사설 클라우드에서의 배포 옵션과 같은 엔터프라이즈 중심 기능도 포함됩니다. Maxim의 표준화된 테스트 및 평가 접근 방식은 주목할 만하지만, Dynatrace 및 Datadog과 같은 잘 자금 지원된 경쟁자들과의 경쟁에서 도전에 직면하고 있습니다. 이들 경쟁자들은 지속적으로 자사 제품을 진화시키고 있습니다.
Gangwar는 많은 경쟁자들이 성능 모니터링, 품질 또는 가시성에 집중하는 반면, Maxim은 모든 평가 필요성을 단일 통합 플랫폼에 집약하는 것을 목표로 한다고 언급합니다. "개발 생애주기는 테스트와 관련된 요구를 총체적으로 관리해야 하며, 이는 지속 가능성 있는 애플리케이션을 위해 상당한 생산성과 품질 개선을 가져올 것이라고 믿습니다."라고 그녀는 강조합니다.
앞으로 Maxim은 팀 및 운영 능력을 확장하고 AI 제품 개발에 집중하는 기업과의 파트너십을 강화할 계획입니다. 향후 개선 사항으로는 품질 및 안전을 위한 고유한 도메인별 평가와 다중 모드 데이터 엔진 개발이 포함될 수 있습니다.