구글 클라우드 런, Nvidia GPU 통합으로 서버리스 AI 추론 향상

서버리스 인프라로 AI의 비용과 이점 탐구하기

AI 애플리케이션 운영에는 다양한 비용이 발생하며, 그 중 GPU 전력이 추론 시 가장 중요한 경비 중 하나입니다. 전통적으로 AI 추론을 관리하는 조직은 지속적인 클라우드 인스턴스 또는 온프레미스 하드웨어에 의존해 왔습니다. 그러나 Google Cloud는 AI 애플리케이션 배포를 혁신적으로 변화시킬 수 있는 새로운 솔루션인 Nvidia L4 GPU와 Cloud Run 서버리스 서비스를 통합하여 조직이 서버리스 추론을 수행할 수 있도록 미리 소개하고 있습니다.

서버리스 추론의 힘 활용하기

서버리스 아키텍처의 주요 장점은 비용 효율성입니다. 서비스는 필요할 때만 작동하므로 사용자는 실제 사용량에 대해서만 비용을 지불합니다. 전통적인 클라우드 인스턴스와 달리 서버리스 GPU는 특정 요청 시에만 활성화됩니다. 서버리스 추론은 Nvidia NIM 및 VLLM, PyTorch, Ollama와 같은 다양한 프레임워크를 활용할 수 있습니다. 현재 미리보기 중인 Nvidia L4 GPU 지원은 많은 기대를 모으고 있습니다.

“고객들이 AI를 점점 더 많이 채택함에 따라 익숙한 플랫폼에서 AI 작업을 배포하고자 합니다.”라고 Google Cloud Serverless의 제품 관리자 Sagar Randive가 언급했습니다. “Cloud Run의 효율성과 유연성이 중요하며, 사용자들은 GPU 지원을 요청했습니다.”

서버리스 AI 환경으로의 전환

Google의 Cloud Run은 완전 관리형 서버리스 플랫폼으로, 개발자들 사이에서 컨테이너 배포와 관리의 용이성 덕분에 인기를 끌고 있습니다. AI 작업량이 증가함에 따라, 특히 실시간 처리가 필요한 경우, 향상된 컴퓨팅 자원의 필요성이 분명해졌습니다. GPU 지원 추가는 Cloud Run 개발자에게 다음과 같은 다양한 가능성을 열어줍니다:

- Gemma 2B/7B 또는 Llama 3 (8B)와 같은 경량 모델을 사용한 실시간 추론으로, 반응형 챗봇 및 동적 문서 요약 도구 개발을 촉진합니다.

- 특정 브랜드에 맞춘 확장 가능한 이미지 생성 애플리케이션을 가능하게 하는 커스텀 조정 생성 AI 모델.

- 이미지 인식, 비디오 트랜스코딩 및 3D 렌더링과 같은 컴퓨팅 집약적인 작업을 가속화하여 유휴 상태일 때는 자동으로 스케일 다운합니다.

서버리스 AI 추론을 위한 성능 고려 사항

서버리스 아키텍처와 관련된 일반적인 우려 중 하나는 성능, 특히 콜드 스타트입니다. Google Cloud는 Gemma 2B, Gemma 2 9B, Llama 2 7B/13B 및 Llama 3.1 8B와 같은 다양한 모델의 콜드 스타트 시간이 11초에서 35초 사이임을 보여줌으로써 이러한 우려를 해결합니다. 각 Cloud Run 인스턴스는 하나의 Nvidia L4 GPU로 장착되어 최대 24GB의 vRAM을 제공하며, 이는 대부분의 AI 추론 작업에 적합합니다. Google Cloud는 모델 중립성을 유지하려고 노력하지만, 최적의 성능을 위해 130억 개 미만의 파라미터를 가진 모델을 사용하는 것을 권장합니다.

서버리스 AI 추론의 비용 효율성

서버리스 모델의 주요 장점 중 하나는 하드웨어 활용도를 높일 수 있는 잠재력으로, 이는 비용 절감으로 이어질 수 있습니다. 그러나 서버리스 AI 추론이 전통적인 장기 실행 서버보다 저렴한지는 특정 애플리케이션 및 예상 트래픽 패턴에 따라 다릅니다.

“이는 미묘한 문제입니다.”라고 Randive가 설명했습니다. “우리는 Cloud Run과 함께 새로운 GPU 가격을 반영하도록 가격 계산기를 업데이트하여 고객이 다양한 플랫폼에서 총 운영 비용을 비교할 수 있도록 할 것입니다.”

이러한 새로운 서버리스 정책에 적응함으로써 조직은 AI 배포 전략을 최적화하고 효과적으로 비용을 관리할 수 있습니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles