Hugging Face가 새로운 80억 개 파라미터 오픈소스 비주얼 언어 모델 Idefics2를 공개했습니다.

Home AI 뉴스 Hugging Face가 새로운 80억 개 파라미터 오픈소스 비주얼 언어 모델 Idefics2를 공개했습니다.

Hugging Face는 2023년에 DeepMind에서 개발한 기술을 기반으로 Idefics 비주얼 언어 모델을 출시했습니다. 개선된 버전인 Idefics2는 Hugging Face에서 제공되며, 더 작은 파라미터 크기, 오픈 라이센스, 강화된 광학 문자 인식(Optical Character Recognition, OCR) 기능을 특징으로 합니다.

Idefics는 ‘이미지 인식 디코더 강화 모델’로, 텍스트와 이미지 프롬프트를 모두 처리할 수 있는 다목적 멀티모달 모델입니다. 원래의 Idefics는 800억 개의 파라미터를 자랑했지만, Idefics2는 80억 개로 간소화되어 DeepSeek-VL 및 LLaVA-NeXT-Mistral-7B와 경쟁할 수 있는 수준입니다.

Idefics2의 주요 개선 사항에는 고급 이미지 조작이 포함되어 있으며, 고정 크기 정사각형 비율에 맞춰 리사이즈할 필요 없이 최대 980 x 980 픽셀의 기본 해상도를 지원합니다. 기존 컴퓨터 비전의 일반적인 한계를 극복했습니다.

모델의 OCR 기능은 이미지와 문서 내 텍스트 전사로부터 수집된 데이터를 통합하여 향상되었습니다. Hugging Face 팀은 Idefics2가 차트, 그림 및 문서와 관련된 질문에 더욱 잘 응답할 수 있도록 개선했습니다.

또한, Idefics2는 이전 버전에서 사용된 게이티드 크로스 어텐션 메커니즘을 벗어나 아키텍처가 간소화되었습니다. Hugging Face에 따르면, “이미지는 비전 인코더에 입력된 후, 학습된 퍼시버 풀링과 다층 퍼셉트론 모달리티 프로젝션을 거칩니다. 이 풀링된 시퀀스는 텍스트 임베딩과 연결되어 이미지와 텍스트의 교차 시퀀스를 생성합니다.”

Idefics2 훈련에는 Mistral-7B-v0.1 및 siglip-so400m-patch14-384와 같은 공개 데이터셋의 조합이 사용되었습니다. 추가 훈련 데이터로는 웹 문서, 이미지-캡션 쌍, OCR 데이터, 이미지-코드 리소스가 포함되었습니다.

Idefics2의 출시시는 Reka의 Core 모델, xAI의 Grok-1.5V, Google의 Imagen 2 등 AI 분야에서 다수의 멀티모달 모델이 급증하는 가운데 이루어졌습니다.

MongoDB의 AI 스타트업 및 AWS, Google, Microsoft와 같은 클라우드 대기업과의 협력이 개발자 생성 AI 혁신을 이끄는 방법

Glaze 2: 아티스트를 위한 향상된 AI 스크래핑 방지 도구 출시, 곧 비디오 방어 기능 추가 예정

Most people like

DaVinci AI Art Generator

다빈치, 텍스트에서 아트 생성기.

AI 아트 생성기 AI Art Generator

Flux Image

10.6K

AI 스톡 이미지 생성기로 시각적 스토리텔링을 혁신하세요. 손쉽게 멋지고 고품질의 사진을 만들어주는 이 도구로 여러분의 필요에 맞춘 인상적인 이미지를 생성할 수 있습니다. 몇 번의 클릭만으로 프로젝트를 향상시키고 관객을 사로잡아 보세요!

AI 이미지 생성기 AI Art Generator

Goodnotes

2.1M

AI 기반 앱으로 제공되는 진정한 손글씨 경험으로 노트-taking의 미래를 경험하세요. 회의 중 생각을 기록하든, 수업 중 아이디어를 적든, 우리의 직관적인 인터페이스는 당신의 노트가 종이에 펜으로 쓰는 것처럼 자연스럽게 느껴지도록 보장합니다. 쓰기의 예술을 희생하지 않고 기술을 포용하세요.

메모 작성 AI Notes Assistant

QuizSolver

27.9K

효율적인 AI 기반 퀴즈 도움으로 학습 효과를 극대화하세요.

인공지능 Homework Helper

Find AI tools in YBX