구글은 경량 오픈 모델인 제마(Gemma) 컬렉션의 새로운 비전-언어 멀티모달 모델인 PaliGemma를 공개했습니다. PaliGemma는 이미지 캡셔닝, 시각적 질문 응답 및 이미지 검색을 위해 설계되었으며, CodeGemma와 RecurrentGemma와 함께 개발자들이 프로젝트에 통합할 수 있도록 제공됩니다.
구글 개발자 회의에서 발표된 PaliGemma는 제마 가족에서 시각 정보를 서면 언어로 변환하는 데 중점을 둔 유일한 모델로, 소형 언어 모델(SLM)로 설계되어 광범위한 메모리나 처리 능력 없이도 효율적으로 작동합니다. 이는 스마트폰, IoT 기기 및 개인 컴퓨터와 같은 자원 제약이 있는 장치에 적합합니다.
개발자들은 PaliGemma가 애플리케이션을 향상시킬 잠재력 때문에 관심을 가질 것입니다. 이 모델은 콘텐츠 생성 지원, 검색 기능 개선 및 시각 장애인이 주변 환경을 더 잘 이해하는 데 도움을 줄 수 있습니다. 많은 AI 솔루션이 클라우드 기반의 대형 언어 모델(LLM)에 의존하지만, PaliGemma와 같은 SLM은 입력과 응답 간의 지연 시간을 줄여, 불안정한 인터넷 연결 환경에서도 활용할 수 있습니다.
PaliGemma는 웹 및 모바일 애플리케이션에서 주로 사용되지만, Ray-Ban 메타 스마트 글래스와 경쟁할 수 있는 스마트 글래스와 Rabbit r1 또는 Humane AI Pin과 같은 웨어러블 기기에 통합될 가능성도 있습니다. 이 모델은 홈 및 사무실 로봇에도 가치를 더할 수 있습니다. Google Gemini와 동일한 연구 및 기술을 기반으로 구축된 PaliGemma는 개발자들에게 친숙하고 강력한 프로젝트 프레임워크를 제공합니다.
PaliGemma 출시와 함께, 구글은 270억 개 매개변수를 자랑하는 가장 대규모의 Gemma 버전도 발표했습니다.