구글 클라우드는 두 가지 버전의 대표 AI 모델인 Gemini 1.5 Flash와 Gemini 1.5 Pro를 출시했습니다. Gemini 1.5 Flash는 1백만 토큰의 컨텍스트 윈도우를 갖춘 컴팩트한 멀티모달 모델로, 고주파 작업에 최적화되어 있습니다. 지난 5월 Google I/O에서 처음 공개된 이 모델은 현재 개발자에게 제공되고 있습니다. 보다 강력한 Gemini 1.5 Pro는 2백만 토큰의 컨텍스트 윈도우를 자랑하며, 구글의 대형 언어 모델(LLM) 중 가장 진보된 버전입니다.
이번 Gemini 모델 출시를 통해 구글의 AI 기술이 기업들이 혁신적인 AI 에이전트와 솔루션을 구축할 수 있도록 지원하고 있음을 보여주고 있습니다. 최근 기자 회견에서 구글 클라우드 CEO인 토마스 쿠리안은 생성적 AI 채택의 " 놀라운 모멘텀"을 강조하며, 액센츄어, 에어버스, 골드만삭스 등 주요 조직들이 구글 플랫폼을 통해 발전하고 있다고 밝혔습니다. 쿠리안은 이러한 급증이 구글 모델의 기능과 Vertex 플랫폼의 결합 덕분이라고 설명하며 두 영역에서 빠른 발전이 예상된다고 말했습니다.
Gemini 1.5 Flash
Gemini 1.5 Flash는 개발자에게 낮은 대기 시간과 비용 효율적인 가격을 제공하며, 소매 채팅 에이전트 및 문서 처리와 같은 애플리케이션에 적합한 컨텍스트 윈도우를 지원합니다. 구글에 따르면, Gemini 1.5 Flash는 10,000자 입력 처리 시 평균적으로 GPT-3.5 Turbo보다 40% 더 빠르게 작동합니다. 또한, OpenAI 모델보다 입력 비용이 4배 저렴하며, 32,000자 이상의 입력에 대한 컨텍스트 캐싱을 지원합니다.
Gemini 1.5 Pro
Gemini 1.5 Pro는 독특한 2백만 토큰의 컨텍스트 윈도우를 갖추고 있어 더 많은 텍스트를 분석하고 포괄적인 응답을 생성할 수 있습니다. 쿠리안은 이 기능을 통해 사용자가 2시간 분량의 고화질 비디오나 60,000줄이 넘는 코드를 작은 조각으로 나누지 않고도 입력할 수 있다고 설명했습니다. 많은 기업들이 이 모델의 향상된 처리 능력에서 귀중한 가치를 발견하고 있습니다.
쿠리안은 두 모델의 특징을 사용자 요구에 따라 구분했습니다: Gemini 1.5 Pro는 긴 콘텐츠 처리를 위한 완벽한 선택이며, Flash는 저지연 애플리케이션에 적합합니다.
Gemini 1.5의 컨텍스트 캐싱
개발자들이 Gemini의 컨텍스트 윈도우 기능을 극대화할 수 있도록 구글은 모든 모델에 대해 공개 미리보기로 컨텍스트 캐싱 기능을 도입했습니다. 이 기능은 모델이 이전에 처리한 정보를 저장하고 재사용하여 긴 대화나 문서에 대한 응답을 다시 계산할 필요가 없어 최대 75%의 계산 비용을 절감합니다.
Gemini의 프로비저닝 처리 속도
새롭게 제공되는 프로비저닝 처리 속도 기능은 개발자가 시간에 따라 모델이 처리할 수 있는 질의 수를 관리하여 Gemini 모델의 사용량을 효율적으로 확장할 수 있도록 합니다. 이 옵션은 이전의 사용량 기반 모델에 비해 예측 가능성과 신뢰성을 향상시킵니다. 쿠리안은 프로비저닝 처리 속도가 고객이 추론 용량을 예약할 수 있게 해 주며, 대규모 이벤트 중 소셜 미디어 플랫폼이 경험하는 수요 급증 시에도 일관된 성능을 보장한다고 언급했습니다.
프로비저닝 처리 속도는 이제 일반 제공되며, 개발자에게 생산 워크로드에 대한 더 큰 제어력과 응답 시간 및 가동 시간에 대한 서비스 수준 보장을 제공합니다.