Hugging Face가 새로운 80억 개 파라미터 오픈소스 비주얼 언어 모델 Idefics2를 공개했습니다.

Hugging Face는 2023년에 DeepMind에서 개발한 기술을 기반으로 Idefics 비주얼 언어 모델을 출시했습니다. 개선된 버전인 Idefics2는 Hugging Face에서 제공되며, 더 작은 파라미터 크기, 오픈 라이센스, 강화된 광학 문자 인식(Optical Character Recognition, OCR) 기능을 특징으로 합니다.

Idefics는 ‘이미지 인식 디코더 강화 모델’로, 텍스트와 이미지 프롬프트를 모두 처리할 수 있는 다목적 멀티모달 모델입니다. 원래의 Idefics는 800억 개의 파라미터를 자랑했지만, Idefics2는 80억 개로 간소화되어 DeepSeek-VL 및 LLaVA-NeXT-Mistral-7B와 경쟁할 수 있는 수준입니다.

Idefics2의 주요 개선 사항에는 고급 이미지 조작이 포함되어 있으며, 고정 크기 정사각형 비율에 맞춰 리사이즈할 필요 없이 최대 980 x 980 픽셀의 기본 해상도를 지원합니다. 기존 컴퓨터 비전의 일반적인 한계를 극복했습니다.

모델의 OCR 기능은 이미지와 문서 내 텍스트 전사로부터 수집된 데이터를 통합하여 향상되었습니다. Hugging Face 팀은 Idefics2가 차트, 그림 및 문서와 관련된 질문에 더욱 잘 응답할 수 있도록 개선했습니다.

또한, Idefics2는 이전 버전에서 사용된 게이티드 크로스 어텐션 메커니즘을 벗어나 아키텍처가 간소화되었습니다. Hugging Face에 따르면, “이미지는 비전 인코더에 입력된 후, 학습된 퍼시버 풀링과 다층 퍼셉트론 모달리티 프로젝션을 거칩니다. 이 풀링된 시퀀스는 텍스트 임베딩과 연결되어 이미지와 텍스트의 교차 시퀀스를 생성합니다.”

Idefics2 훈련에는 Mistral-7B-v0.1 및 siglip-so400m-patch14-384와 같은 공개 데이터셋의 조합이 사용되었습니다. 추가 훈련 데이터로는 웹 문서, 이미지-캡션 쌍, OCR 데이터, 이미지-코드 리소스가 포함되었습니다.

Idefics2의 출시시는 Reka의 Core 모델, xAI의 Grok-1.5V, Google의 Imagen 2 등 AI 분야에서 다수의 멀티모달 모델이 급증하는 가운데 이루어졌습니다.

Most people like

Find AI tools in YBX