마이크로소프트, 다양한 비전 작업을 위한 통합 모델 플로렌스-2 출시

오늘, Microsoft의 Azure AI 팀은 Hugging Face에서 새로운 비전 기반 모델인 Florence-2를 발표했습니다. 이 모델은 허가가 자유로운 MIT 라이선스 하에 제공되며, 통합된 프롬프트 기반 프레임워크를 통해 다양한 비전 및 비전-언어 작업에서 뛰어난 성능을 자랑합니다. 이 모델은 232M과 771M 두 가지 사이즈로 제공되며, 캡셔닝, 객체 탐지, 시각적 고정 및 분할 등 다양한 작업에서 종종 다른 대형 비전 모델보다 우수한 성능을 보여줍니다.

Florence-2의 실제 성능은 아직 평가되지 않았지만, 다양한 비전 애플리케이션을 위한 일관된 전략을 기업에 제공하는 것을 목표로 하고 있습니다. 이는 기능이 제한되고 많은 세부 조정이 필요한 여러 개의 작업별 모델을 줄이는 데 도움이 될 것입니다.

Florence-2의 뛰어난 점은 무엇일까요?

현재 대형 언어 모델(LLM)은 요약, 마케팅 카피 생성 및 고객 지원과 같은 서비스를 제공하며 기업 운영에 필수적입니다. 이 모델들은 다양한 분야에서의 적응력이 뛰어납니다. 그렇다면 일반적으로 특정 작업을 위해 설계된 비전 모델들이 유사한 다재다능성을 이룰 수 있을까요?

비전 작업은 텍스트 기반 자연어 처리(NLP)보다 본질적으로 더 복잡하며, 정교한 지각 능력이 요구됩니다. 보편적인 모델은 객체 위치와 복잡한 픽셀 세부사항, 고급 캡션과 같은 다양한 규모의 공간 데이터를 이해해야 합니다. Microsoft는 통합 비전 모델을 만드는 데 두 가지 주요 도전을 확인했습니다: 광범위하게 주석이 달린 비주얼 데이터세트의 부족과 공간 계층 및 의미론적 세분성을 통합할 수 있는 단일 사전 훈련 프레임워크의 필요성입니다.

이 문제를 해결하기 위해 Microsoft는 126백만 이미지에 대해 54억 개의 주석으로 구성된 FLD-5B 비주얼 데이터세트를 개발했습니다. 이 데이터세트는 일반 설명부터 특정 객체 영역에 이르기까지 상세한 내용을 포함하고 있습니다. Florence-2는 이미지 인코더와 다중 모달 인코더-디코더를 결합한 시퀀스-투-시퀀스 아키텍처를 활용하여 훈련되었습니다. 이 설계는 Florence-2가 작업별 아키텍처 변경 없이 다양한 비전 작업을 관리할 수 있게 합니다.

"FLD-5B 데이터세트의 모든 주석은 텍스트 출력으로 표준화되어, 일관된 최적화를 위한 통합 다중 작업 학습 접근을 가능하게 합니다," 연구진은 논문에서 언급했습니다. "그 결과는 단일 프레임워크 내에서 여러 작업을 처리할 수 있는 다재다능한 비전 기반 모델이 생성되며, 일관된 매개변수 세트에 의해 규제됩니다. 작업 활성화는 대형 언어 모델과 유사하게 텍스트 프롬프트를 통해 이루어집니다."

더 큰 모델을 초월하는 성능

Florence-2는 이미지와 텍스트 입력이 제공되면 객체 탐지, 캡셔닝, 시각적 고정 및 시각적 질의 응답과 같은 다양한 작업을 효과적으로 수행합니다. 특히 많은 대형 모델과 동등하거나 더 나은 결과를 달성합니다.

예를 들어, COCO 데이터세트에서의 제로샷 캡셔닝 테스트에서, 232M 및 771M 버전의 Florence-2는 DeepMind의 80B 파라미터 Flamingo 모델을 초월하며 각각 133과 135.6점을 기록했습니다. 또한 Microsoft의 자체 모델인 Kosmos-2보다도 뛰어난 성능을 보였습니다.

공식적인 주석 데이터로 미세 조정된 Florence-2는 시각적 질의 응답과 같은 작업에서 대형 전문 모델과 근접하게 경쟁합니다. "사전 훈련된 Florence-2 백본은 COCO 객체 탐지, 인스턴스 분할 및 ADE20K 의미론적 분할과 같은 다운스트림 작업의 성능을 향상시키며, 감독 학습 및 자가 감독 학습 모델 모두를 초과하는 성과를 보입니다," 연구진은 말했습니다. "ImageNet에서 사전 훈련된 모델과 비교할 때, 우리의 모델은 훈련 효율성을 4배 향상시키고 COCO 및 ADE20K 데이터세트에서 각각 6.9, 5.5 및 5.9 포인트의 성능 향상을 제공합니다."

현재, Hugging Face에서 MIT 라이선스 하에 사전 훈련된 버전과 미세 조정된 버전의 Florence-2(232M 및 771M)가 제공되며, 상업적인 사용과 개인적인 사용이 자유롭습니다. 개발자들이 Florence-2를 어떻게 활용하여 다양한 작업을 위한 별도의 비전 모델의 필요성을 없앨 수 있을지 기대됩니다. 이러한 컴팩트하고 작업 비의존적인 모델은 개발 과정을 간소화하고 컴퓨팅 비용을 크게 줄일 수 있습니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles