비즈니스에서 AI 모델의 안전한 배포 보장
직원이나 고객을 위해 AI 모델을 도입하려는 기업에게 가장 중요한 질문은 단순히 어떤 모델을 선택할지, 그 모델의 사용 용도가 아닙니다. 이는 선택한 모델이 언제 안전하게 배포될 수 있는지를 판단하는 데 초점이 맞춰져 있습니다. 백엔드 테스트는 얼마나 필요할까요? 어떤 종류의 테스트를 실시해야 할까요? 기업들은 채팅 지원에 ChatGPT를 사용하는 일부 자동차 대리점에서처럼 불미스러운 일을 피하고 싶어합니다. 이러한 사례에서 사용자는 시스템을 속여 자동차를 $1에 판매하는 것에 동의하게 했습니다.
철저한 테스트의 중요성
AI 모델, 특히 면밀히 조정된 모델을 적절히 테스트하는 것은 성공적인 출시와 기업의 명성과 재정을 위협하는 실패 사이의 차이가 될 수 있습니다. 샌프란시스코에 본사를 둔 스타트업 Kolena는 최근 AI 품질 플랫폼을 출시했습니다. 이 웹 애플리케이션은 AI 시스템의 신속하고 정확한 테스트 및 검증을 돕기 위해 설계되었습니다.
이 플랫폼은 데이터 품질 모니터링, 모델 테스트, A/B 테스트, 데이터 드리프트 및 모델 저하 모니터링과 같은 다양한 기능을 포함하며, 디버깅 기능도 제공합니다. Kolena의 공동창립자이자 CEO인 모하메드 엘겐디는 독점 미디어 인터뷰에서 “이 문제를 해결하는 것은 기업에서 AI 채택을 진전시키는 데 필수적입니다”라고 말했습니다. 엘겐디는 Rakuten의 엔지니어링 부사장과 Amazon의 선임 엔지니어링 관리자 등 과거 경력을 바탕으로 기업의 AI 배포에 대한 도전을 잘 이해하고 있습니다.
Kolena의 AI 품질 플랫폼 작동 방식
Kolena의 솔루션은 소프트웨어 개발자와 IT 인력이 현실 세계 응용 프로그램을 위한 안전하고 신뢰할 수 있으며 공정한 AI 시스템을 만들도록 지원하는 것을 목표로 합니다. 데이터를 기반으로 세부 테스트 케이스의 신속한 개발을 가능하게 하여 AI/ML 모델에 대한 철저한 검토를 수행하고, 중요한 성능 통찰력이 엇갈릴 수 있는 일반 통계 지표를 넘어섭니다.
각 Kolena 고객은 선택한 모델을 API를 통해 연결하고, 모델 운영을 위한 자신의 데이터 세트와 기능 요구 사항을 제공합니다. 고객은 편향, 연령, 인종 및 민족의 다양성 같은 속성을 여러 지표를 통해 평가할 수 있습니다. Kolena는 수백 또는 수천 번의 상호작용을 시뮬레이션하여 바람직하지 않은 결과를 식별하고, 이러한 결과가 얼마나 자주 발생하는지 및 어떤 상황에서 발생하는지를 분석합니다.
또한, Kolena는 제공자 또는 고객에 의해 업데이트, 재교육 또는 조정된 후 모델을 재테스트합니다.
엘겐디는 “테스트를 실시하여 모델이 저하된 정확한 부분을 pinpoint합니다. Kolena는 테스트를 소프트웨어 개발과 유사한 정밀한 엔지니어링 분야로 만듭니다”라고 설명합니다. 이러한 기능은 기업뿐만 아니라 AI 모델 제공자에게도 유용합니다. 예를 들어, 엘겐디는 부정확한 이미지를 생성하는 문제에 직면했던 구글의 Gemini가 출시 전에 Kolena의 플랫폼이 제공하는 철저한 테스트의 혜택을 누릴 수 있었을 것이라고 언급했습니다.
출시 전 광범위한 테스트
Kolena는 야심에 부합하게 AI 품질 플랫폼을 널리 출시하기 전에 광범위한 테스트를 보장합니다. 이 회사는 지난 24개월 간 Fortune 500 기업 및 스타트업과 폐쇄형 베타 테스트를 진행하며 사용자 피드백과 요구에 따라 플랫폼을 개선해왔습니다.
엘겐디는 “우리는 선정된 고객 그룹과 밀접하게 협력하여 알려진 문제와 아직 모르는 문제를 정의했습니다”라고 설명했습니다. 이 그룹은 Kolena의 플랫폼을 사용하여 AI 모델에 대해 “수만” 건의 테스트를 수행했습니다.
앞으로 Kolena는 고객을 다음 세 가지 주요 영역에서 참여시키고자 합니다: 1. AI 기반 모델 제작자, 2. 기술 분야 구매자, 3. 비기술 분야 구매자. 예를 들어, 한 파트너는 대형 언어 모델 솔루션을 이용하여 패스트푸드 드라이브 스루 운영을 개선하고 있으며, 다른 파트너는 자율주행차 개발을 목표로 하고 있습니다.
가격 및 접근성
Kolena의 AI 품질 플랫폼은 소프트웨어 서비스(SaaS) 모델로 운영되며, 데이터 품질 평가부터 모델 훈련 및 최종 배포까지 기업의 AI 성장에 맞춰 확장 가능한 세 가지 가격 체계를 제공합니다.