애플, 이미지 인식 및 자연어 이해 기능을 갖춘 300억 달러 규모의 MM1.5 멀티모달 AI 모델 발표

Home AI 뉴스 애플, 이미지 인식 및 자연어 이해 기능을 갖춘 300억 달러 규모의 MM1.5 멀티모달 AI 모델 발표

애플이 최근 300억 개의 매개변수를 갖춘 최신 멀티모달 AI 모델 MM1.5를 출시했습니다. 이번 버전은 이전 MM1 모델을 기반으로 상당한 개선을 이루었습니다.

MM1.5는 데이터 기반 훈련 원칙을 준수하며, 혼합 데이터가 다양한 훈련 주기 간 모델 성능에 미치는 영향을 면밀히 분석합니다. 새로운 모델에 대한 문서는 Hugging Face 플랫폼에 발표되었으며, 10억에서 300억 매개변수에 이르는 다양한 매개변수 구성을 제공합니다. 이 모델은 이미지 인식 및 자연어 추론 능력을 뽐냅니다.

이번 업데이트에서 애플 연구팀은 데이터 혼합 전략을 최적화하여 다중 텍스트 이미지 이해, 시각적 참조 및 위치 확인, 다중 이미지 추론 등에서 모델 성능을 크게 향상시켰습니다. 연구에 따르면 MM1.5의 사전 훈련 단계에서 고품질 OCR 데이터와 합성 이미지 설명이 포함되어 있어 텍스트가 많은 이미지를 이해하는 모델의 능력을 크게 향상시켰습니다. 또한 감독하에 미세 조정 단계에서는 다양한 데이터 유형이 모델 성능에 미치는 영향을 분석하고, 시각적 지침 튜닝 데이터 구성을 최적화하여 10억 및 30억 매개변수를 갖는 소형 모델도 뛰어난 성과를 달성할 수 있도록 했습니다.

추가적으로 애플은 비디오 이해를 위한 MM1.5-Video와 모바일 장치의 사용자 인터페이스(UI) 이해를 위한 MM1.5-UI와 같은 특화된 모델을 소개했습니다. MM1.5-UI 모델은 iOS 생태계를 위한 애플 AI의 초석이 될 것이며, 시각적 참조 및 위치 확인 작업을 효율적으로 처리하고, 화면 기능 요약이나 사용자 대화 상호작용을 수행할 수 있습니다.

MM1.5 모델은 여러 벤치마크에서 뛰어난 성능을 보이고 있지만, 애플 팀은 텍스트, 이미지 및 사용자 상호작용 데이터를 통합하여 더 복잡한 아키텍처를 개발함으로써 AI의 능력을 지속적으로 향상시키고 있습니다. 이러한 노력은 "애플 브랜드" AI의 효과성을 강화하고 모바일 장치 UI 이해 능력을 더욱 향상시키는 것을 목표로 하고 있습니다.

NVIDIA CEO 젠슨 황, 50,000명의 직원과 1억 개의 AI 어시스턴트가 있는 미래를 구상하다.

AI 프롬프트 생성 효율 향상: OpenAI 플레이그라운드에서 새로운 메타 프롬프트 도구 출시

Most people like

Arize AI

128.8K

모델 속도를 향상시키고 AI 결과를 최적화하여 뛰어난 성능을 발휘하세요.

AI 가시성 Large Language Models (LLMs)

Devv AI Search Engine

464.1K

개발자 중심의 AI 검색 엔진을 소개합니다. 이는 프로그래머와 개발자를 위해 특별히 설계된 강력한 도구입니다. 이 혁신적인 플랫폼은 코딩 리소스, 문서 및 기술 솔루션을 찾고 활용하는 방식을 혁신적으로 변화시킵니다. 고급 인공지능을 활용하여, 우리의 검색 엔진은 특정 프로그래밍 요구에 맞춘 정확한 결과를 제공하여 생산성을 높이고 개발 프로세스를 간소화합니다. 모든 수준의 개발자를 지원하도록 제작된 직관적인 AI 기반 검색 엔진으로 코딩의 미래를 발견해 보세요.

AI 검색 엔진 Other

Spok by Forum3

12.6K

AI 마케팅 도구의 힘을 활용하여 실행 가능한 통찰력을 얻으세요 오늘날 빠르게 변화하는 디지털 환경에서 AI 마케팅 도구의 잠재력을 활용하는 것은 실행 가능한 통찰력을 얻고자 하는 기업에게 필수적입니다. 이러한 혁신적인 솔루션은 데이터 분석과 기계 학습을 통해 마케터가 고객 행동을 이해하고 캠페인을 최적화하며 더 나은 의사 결정을 내릴 수 있도록 돕습니다. 마케팅 전략에 AI를 통합하면 원시 데이터를 가치 있는 통찰력으로 변환하여 전체 성능을 향상시키고 ROI를 높일 수 있습니다. AI 마케팅 도구가 여러분의 접근 방식을 혁신하고 경쟁에서 앞서 나갈 수 있도록 도와주는 방법을 알아보세요.

AI 기반 마케팅 도구 Large Language Models (LLMs)

Gladia

177.3K

혁신적인 AI 기반 전사, 번역 및 오디오 인텔리전스 향상.

음성 인식 AI Product Description Generator

Find AI tools in YBX