구글, AI 역량 향상을 위한 첫 번째 오픈 멀티모달 비전-언어 모델 'PaliGemma' 출시

Home AI 뉴스 구글, AI 역량 향상을 위한 첫 번째 오픈 멀티모달 비전-언어 모델 'PaliGemma' 출시

구글은 경량 오픈 모델인 제마(Gemma) 컬렉션의 새로운 비전-언어 멀티모달 모델인 PaliGemma를 공개했습니다. PaliGemma는 이미지 캡셔닝, 시각적 질문 응답 및 이미지 검색을 위해 설계되었으며, CodeGemma와 RecurrentGemma와 함께 개발자들이 프로젝트에 통합할 수 있도록 제공됩니다.

구글 개발자 회의에서 발표된 PaliGemma는 제마 가족에서 시각 정보를 서면 언어로 변환하는 데 중점을 둔 유일한 모델로, 소형 언어 모델(SLM)로 설계되어 광범위한 메모리나 처리 능력 없이도 효율적으로 작동합니다. 이는 스마트폰, IoT 기기 및 개인 컴퓨터와 같은 자원 제약이 있는 장치에 적합합니다.

개발자들은 PaliGemma가 애플리케이션을 향상시킬 잠재력 때문에 관심을 가질 것입니다. 이 모델은 콘텐츠 생성 지원, 검색 기능 개선 및 시각 장애인이 주변 환경을 더 잘 이해하는 데 도움을 줄 수 있습니다. 많은 AI 솔루션이 클라우드 기반의 대형 언어 모델(LLM)에 의존하지만, PaliGemma와 같은 SLM은 입력과 응답 간의 지연 시간을 줄여, 불안정한 인터넷 연결 환경에서도 활용할 수 있습니다.

PaliGemma는 웹 및 모바일 애플리케이션에서 주로 사용되지만, Ray-Ban 메타 스마트 글래스와 경쟁할 수 있는 스마트 글래스와 Rabbit r1 또는 Humane AI Pin과 같은 웨어러블 기기에 통합될 가능성도 있습니다. 이 모델은 홈 및 사무실 로봇에도 가치를 더할 수 있습니다. Google Gemini와 동일한 연구 및 기술을 기반으로 구축된 PaliGemma는 개발자들에게 친숙하고 강력한 프로젝트 프레임워크를 제공합니다.

PaliGemma 출시와 함께, 구글은 270억 개 매개변수를 자랑하는 가장 대규모의 Gemma 버전도 발표했습니다.

Google이 Gemma 2 시리즈를 출시했습니다: 단일 TPU에서 실행 가능한 270억 개 파라미터 모델을 소개합니다.

OpenAI가 GPT-4o를 무료로 제공함에 따라, ChatGPT Plus에 여전히 돈을 지불해야 할 사람은 누구일까요?

Most people like

Retorio

54K

성과 중심 문화의 잠재력을 여는 것은 행동 지능에 기반한 효과적인 학습 및 개발(L&D) 전략에 달려 있습니다. 행동 과학의 통찰력을 통합함으로써 조직은 직원 참여를 강화하고, 훈련 프로그램을 효율화하며, 더 역동적인 작업 환경을 조성할 수 있습니다. 이러한 접근 방식은 지속적인 학습을 촉진할 뿐만 아니라 직원 성장과 비즈니스 목표를 일치시켜 조직의 성공을 이끕니다. 행동 지능에 뒷받침된 혁신적인 L&D 관행을 통해 thriving 성과 문화를 어떻게 배양할 수 있는지 알아보십시오.

행동 지능 AI Customer Service Assistant

Hansei

5.9K

한세이는 심층 대화 데이터 분석을 위해 설계된 혁신적인 AI 플랫폼으로, 비즈니스가 상호작용에서 인사이트를 끌어낼 수 있도록 지원합니다.

기타 AI Chatbot

Intellecs.AI

53K

Intellecs.AI는 PDF 문서에서 정보를 추출하고 요약을 작성하며 질문에 답하는 과정을 효율적으로 간소화합니다.

인텔렉스.AI AI Document Extraction

Vozo - AI Video Generator

176.7K

AI 비디오 생성기로 비디오 콘텐츠의 잠재력을 열어보세요. 이 도구는 비디오 변환 과정을 간소화하고 향상시킵니다. 매력적인 마케팅 자료, 역동적인 소셜 미디어 클립 또는 매력적인 교육 비디오를 제작하고자 하신다면, 이 혁신적인 도구가 고품질 결과물을 손쉽게 만들어 드립니다. 비디오 제작의 미래를 받아들이고, AI와 함께 여러분의 창의적인 아이디어를 현실로 만들어 보세요.

AI 비디오 생성기 AI Repurpose Assistant

Find AI tools in YBX