Hugging Face가 새로운 80억 개 파라미터 오픈소스 비주얼 언어 모델 Idefics2를 공개했습니다.

Home AI 뉴스 Hugging Face가 새로운 80억 개 파라미터 오픈소스 비주얼 언어 모델 Idefics2를 공개했습니다.

Hugging Face는 2023년에 DeepMind에서 개발한 기술을 기반으로 Idefics 비주얼 언어 모델을 출시했습니다. 개선된 버전인 Idefics2는 Hugging Face에서 제공되며, 더 작은 파라미터 크기, 오픈 라이센스, 강화된 광학 문자 인식(Optical Character Recognition, OCR) 기능을 특징으로 합니다.

Idefics는 ‘이미지 인식 디코더 강화 모델’로, 텍스트와 이미지 프롬프트를 모두 처리할 수 있는 다목적 멀티모달 모델입니다. 원래의 Idefics는 800억 개의 파라미터를 자랑했지만, Idefics2는 80억 개로 간소화되어 DeepSeek-VL 및 LLaVA-NeXT-Mistral-7B와 경쟁할 수 있는 수준입니다.

Idefics2의 주요 개선 사항에는 고급 이미지 조작이 포함되어 있으며, 고정 크기 정사각형 비율에 맞춰 리사이즈할 필요 없이 최대 980 x 980 픽셀의 기본 해상도를 지원합니다. 기존 컴퓨터 비전의 일반적인 한계를 극복했습니다.

모델의 OCR 기능은 이미지와 문서 내 텍스트 전사로부터 수집된 데이터를 통합하여 향상되었습니다. Hugging Face 팀은 Idefics2가 차트, 그림 및 문서와 관련된 질문에 더욱 잘 응답할 수 있도록 개선했습니다.

또한, Idefics2는 이전 버전에서 사용된 게이티드 크로스 어텐션 메커니즘을 벗어나 아키텍처가 간소화되었습니다. Hugging Face에 따르면, “이미지는 비전 인코더에 입력된 후, 학습된 퍼시버 풀링과 다층 퍼셉트론 모달리티 프로젝션을 거칩니다. 이 풀링된 시퀀스는 텍스트 임베딩과 연결되어 이미지와 텍스트의 교차 시퀀스를 생성합니다.”

Idefics2 훈련에는 Mistral-7B-v0.1 및 siglip-so400m-patch14-384와 같은 공개 데이터셋의 조합이 사용되었습니다. 추가 훈련 데이터로는 웹 문서, 이미지-캡션 쌍, OCR 데이터, 이미지-코드 리소스가 포함되었습니다.

Idefics2의 출시시는 Reka의 Core 모델, xAI의 Grok-1.5V, Google의 Imagen 2 등 AI 분야에서 다수의 멀티모달 모델이 급증하는 가운데 이루어졌습니다.

MongoDB의 AI 스타트업 및 AWS, Google, Microsoft와 같은 클라우드 대기업과의 협력이 개발자 생성 AI 혁신을 이끄는 방법

Glaze 2: 아티스트를 위한 향상된 AI 스크래핑 방지 도구 출시, 곧 비디오 방어 기능 추가 예정

Most people like

PDF.ai

448.5K

PDF.ai는 PDF 문서와의 상호작용을 강화하기 위해 설계된 혁신적인 ChatPDF 애플리케이션입니다. 사용자는 질문을 쉽게 하고 간결한 요약을 받으며, 관련 정보를 빠르게 찾아 PDF 관리가 간편하고 효율적입니다.

PDF AI PDF

Octane AI

72.2K

Shopify 상점을 위한 AI 기반 수익 성장 Unlock AI를 활용하여 귀하의 Shopify 상점을 새로운 수익 성장 단계로 이끌 수 있는 방법을 알아보세요. 지능형 솔루션과 데이터 기반 인사이트를 통합함으로써 고객 경험을 향상시키고, 운영을 간소화하며, 판매 전략을 최적화할 수 있습니다. 전자상거래의 미래를 받아들이고, Shopify에 맞춤화된 AI 주도 도구로 귀하의 비즈니스가 번창하는 모습을 지켜보세요.

쇼피파이 통합 AI Product Description Generator

Paraphrasing.io

189.6K

신뢰할 수 있는 AI 패러프레이징 도구를 찾아 텍스트를 손쉽게 다시 작성해 보세요. 글쓰기 향상, 표절 방지 또는 복잡한 아이디어 단순화가 필요하시다면, 우리 고급 도구가 도움을 드립니다. 몇 번의 클릭만으로 원본 텍스트를 똑같은 의미를 유지하면서도 명확성과 몰입도를 높인 새로운 버전으로 변환할 수 있습니다. AI 기반 솔루션이 어떻게 귀하의 콘텐츠를 향상시키고 글쓰기를 빛나게 할 수 있는지 알아보세요.

AI 패러프레이징 도구 AI Rewriter

Wondershare Filmora

2.7M

직관적인 도구로 쉽게 영상을 편집하세요. 간편한 영상 편집이 콘텐츠 제작 과정을 어떻게 변화시키고 스토리텔링을 향상시키는지 알아보세요. 초보든 경험자든 영상 편집을 마스터하는 것이 그 어느 때보다 쉬워졌습니다.

비디오 편집 AI Video Editor

Find AI tools in YBX