마이크로소프트, 다양한 비전 작업을 위한 통합 모델 플로렌스-2 출시

Home AI 뉴스 마이크로소프트, 다양한 비전 작업을 위한 통합 모델 플로렌스-2 출시

오늘, Microsoft의 Azure AI 팀은 Hugging Face에서 새로운 비전 기반 모델인 Florence-2를 발표했습니다. 이 모델은 허가가 자유로운 MIT 라이선스 하에 제공되며, 통합된 프롬프트 기반 프레임워크를 통해 다양한 비전 및 비전-언어 작업에서 뛰어난 성능을 자랑합니다. 이 모델은 232M과 771M 두 가지 사이즈로 제공되며, 캡셔닝, 객체 탐지, 시각적 고정 및 분할 등 다양한 작업에서 종종 다른 대형 비전 모델보다 우수한 성능을 보여줍니다.

Florence-2의 실제 성능은 아직 평가되지 않았지만, 다양한 비전 애플리케이션을 위한 일관된 전략을 기업에 제공하는 것을 목표로 하고 있습니다. 이는 기능이 제한되고 많은 세부 조정이 필요한 여러 개의 작업별 모델을 줄이는 데 도움이 될 것입니다.

Florence-2의 뛰어난 점은 무엇일까요?

현재 대형 언어 모델(LLM)은 요약, 마케팅 카피 생성 및 고객 지원과 같은 서비스를 제공하며 기업 운영에 필수적입니다. 이 모델들은 다양한 분야에서의 적응력이 뛰어납니다. 그렇다면 일반적으로 특정 작업을 위해 설계된 비전 모델들이 유사한 다재다능성을 이룰 수 있을까요?

비전 작업은 텍스트 기반 자연어 처리(NLP)보다 본질적으로 더 복잡하며, 정교한 지각 능력이 요구됩니다. 보편적인 모델은 객체 위치와 복잡한 픽셀 세부사항, 고급 캡션과 같은 다양한 규모의 공간 데이터를 이해해야 합니다. Microsoft는 통합 비전 모델을 만드는 데 두 가지 주요 도전을 확인했습니다: 광범위하게 주석이 달린 비주얼 데이터세트의 부족과 공간 계층 및 의미론적 세분성을 통합할 수 있는 단일 사전 훈련 프레임워크의 필요성입니다.

이 문제를 해결하기 위해 Microsoft는 126백만 이미지에 대해 54억 개의 주석으로 구성된 FLD-5B 비주얼 데이터세트를 개발했습니다. 이 데이터세트는 일반 설명부터 특정 객체 영역에 이르기까지 상세한 내용을 포함하고 있습니다. Florence-2는 이미지 인코더와 다중 모달 인코더-디코더를 결합한 시퀀스-투-시퀀스 아키텍처를 활용하여 훈련되었습니다. 이 설계는 Florence-2가 작업별 아키텍처 변경 없이 다양한 비전 작업을 관리할 수 있게 합니다.

"FLD-5B 데이터세트의 모든 주석은 텍스트 출력으로 표준화되어, 일관된 최적화를 위한 통합 다중 작업 학습 접근을 가능하게 합니다," 연구진은 논문에서 언급했습니다. "그 결과는 단일 프레임워크 내에서 여러 작업을 처리할 수 있는 다재다능한 비전 기반 모델이 생성되며, 일관된 매개변수 세트에 의해 규제됩니다. 작업 활성화는 대형 언어 모델과 유사하게 텍스트 프롬프트를 통해 이루어집니다."

더 큰 모델을 초월하는 성능

Florence-2는 이미지와 텍스트 입력이 제공되면 객체 탐지, 캡셔닝, 시각적 고정 및 시각적 질의 응답과 같은 다양한 작업을 효과적으로 수행합니다. 특히 많은 대형 모델과 동등하거나 더 나은 결과를 달성합니다.

예를 들어, COCO 데이터세트에서의 제로샷 캡셔닝 테스트에서, 232M 및 771M 버전의 Florence-2는 DeepMind의 80B 파라미터 Flamingo 모델을 초월하며 각각 133과 135.6점을 기록했습니다. 또한 Microsoft의 자체 모델인 Kosmos-2보다도 뛰어난 성능을 보였습니다.

공식적인 주석 데이터로 미세 조정된 Florence-2는 시각적 질의 응답과 같은 작업에서 대형 전문 모델과 근접하게 경쟁합니다. "사전 훈련된 Florence-2 백본은 COCO 객체 탐지, 인스턴스 분할 및 ADE20K 의미론적 분할과 같은 다운스트림 작업의 성능을 향상시키며, 감독 학습 및 자가 감독 학습 모델 모두를 초과하는 성과를 보입니다," 연구진은 말했습니다. "ImageNet에서 사전 훈련된 모델과 비교할 때, 우리의 모델은 훈련 효율성을 4배 향상시키고 COCO 및 ADE20K 데이터세트에서 각각 6.9, 5.5 및 5.9 포인트의 성능 향상을 제공합니다."

현재, Hugging Face에서 MIT 라이선스 하에 사전 훈련된 버전과 미세 조정된 버전의 Florence-2(232M 및 771M)가 제공되며, 상업적인 사용과 개인적인 사용이 자유롭습니다. 개발자들이 Florence-2를 어떻게 활용하여 다양한 작업을 위한 별도의 비전 모델의 필요성을 없앨 수 있을지 기대됩니다. 이러한 컴팩트하고 작업 비의존적인 모델은 개발 과정을 간소화하고 컴퓨팅 비용을 크게 줄일 수 있습니다.

작가, 기업 AI 수요 급증 속에서 수익 3배 증가 및 고객 층 250명 확대

OpenAI 공동 창립자 일야 수츠케버, 안전한 초지능 문제 해결을 위한 스타트업 출범

Most people like

moveme.tv

132.1K

moveme.tv에서 개인 맞춤형 AI 영화 추천을 만나보세요! 당신의 고유한 기분에 맞춰, 저희 플랫폼은 모든 스트리밍 서비스에서 이용 가능한 최고의 영화를 선별하여 다음 영화 밤이 당신의 감정에 완벽히 어울리도록 보장합니다.

영화 Other

BarGPT

124.4K

바GPT는 독특하고 창의적인 칵테일을 만드는 혁신적인 AI 바텐더로, 믹솔로지 경험을 변화시킵니다. 평범한 음료 선택에 작별을 고하고, 흥미진진한 맛과 창의성의 세계에 인사하세요!

AI 칵테일 AI Recipe Assistant

MyArchitectAI

28.4K

최첨단 AI 렌더링 소프트웨어를 통해 순간적으로 놀랍고 사실적인 건축 시각화를 경험하세요. 인공지능의 변혁적인 힘을 활용하여 건축 프레젠테이션을 개선하고 디자인 워크플로우를 간소화하세요. 건축가, 디자이너, 개발자 누구나 저희의 고급 도구를 사용하여 고객과 이해관계자들을 사로잡는 몰입형 환경을 창조할 수 있습니다. 오늘 건축 렌더링의 미래를 열어보세요!

AI 렌더링 소프트웨어 Design Assistant

ChatPDF

5.1M

ChatPDF를 소개합니다. 이 혁신적인 AI 기반 서비스는 사용자가 모든 PDF 문서와 손쉽게 상호작용할 수 있도록 합니다. ChatPDF를 통해 실시간 대화를 나누고 즉각적인 답변을 받으며 복잡한 자료에 대한 이해도를 높일 수 있습니다. 오늘, 문서를 다루는 스마트한 방법을 경험해 보세요!

PDF AI PDF

Find AI tools in YBX