Apple Lança o MM1.5: Um Modelo de IA Multimodal de $30 Bilhões com Funções de Reconhecimento de Imagem e Compreensão de Linguagem Natural

Home Notícias de IA Apple Lança o MM1.5: Um Modelo de IA Multimodal de $30 Bilhões com Funções de Reconhecimento de Imagem e Compreensão de Linguagem Natural

Updated on outubro 14 2024

A Apple lançou recentemente seu mais novo modelo de IA multimodal, o MM1.5, com uma escala de 30 bilhões de parâmetros. Esta nova versão aprimora o modelo anterior, MM1, com melhorias significativas.

O MM1.5 segue princípios de treinamento orientados por dados, analisando de perto como dados mistos impactam o desempenho do modelo ao longo de vários ciclos de treinamento. A documentação do novo modelo foi publicada na plataforma Hugging Face, oferecendo uma variedade de configurações de parâmetros que vão de 1 bilhão a 30 bilhões, destacando capacidades em reconhecimento de imagem e raciocínio em linguagem natural.

Nesta atualização, a equipe de pesquisa da Apple otimizou a estratégia de mistura de dados, levando a melhorias substanciais no desempenho do modelo em áreas como compreensão de imagem com múltiplos textos, referência visual e localização, além de raciocínio com múltiplas imagens. Estudos indicam que, durante a fase de pré-treinamento do MM1.5, a incorporação de dados de OCR de alta qualidade e descrições sintéticas de imagens melhorou significativamente a capacidade do modelo de entender imagens contendo texto extenso. Além disso, na fase de ajuste fino supervisionado, a equipe analisou os efeitos de vários tipos de dados no desempenho do modelo, otimizando as configurações de dados de instrução visual, permitindo que modelos menores (como os com 1 bilhão e 3 bilhões de parâmetros) alcançassem resultados notáveis.

Além disso, a Apple introduziu modelos especializados, como o MM1.5-Video para compreensão de vídeo e o MM1.5-UI para compreensão de interface de usuário (UI) em dispositivos móveis. O modelo MM1.5-UI será a base da IA da Apple para o ecossistema iOS, gerenciando de forma eficiente tarefas de referência visual e localização, além de resumir funções de tela ou interagir através de conversas com o usuário.

Apesar do desempenho excepcional do modelo MM1.5 em múltiplos benchmarks, a equipe da Apple está comprometida em aprimorar ainda mais a capacidade da IA, integrando dados de texto, imagem e interação do usuário para desenvolver arquiteturas mais complexas. Este esforço contínuo visa fortalecer a efetividade da IA "marca Apple", tornando-a cada vez mais poderosa na compreensão da interface de usuário de dispositivos móveis.

O CEO da NVIDIA, Jensen Huang, imagina um futuro com 50.000 funcionários e 100 milhões de assistentes de IA.

Aumentando a Eficiência na Criação de Prompts de IA: Novo Ferramenta Meta Prompt Agora Disponível no OpenAI Playground

Most people like

Logome

434.5K

Apresentamos uma maneira simplificada de criar logotipos e kits de marca completos em pouco tempo! Seja você uma startup, uma pequena empresa ou um designer freelancer, nossas ferramentas fáceis de usar permitem que você crie identidades visuais impressionantes sem esforço. Desperte seu potencial criativo e eleve sua marca com nossas soluções de design rápidas e eficientes.

design de logotipo AI Logo Generator

Smallppt

449.8K

Acenda sua criatividade com execução rápida e precisa.

Gerador de apresentações de IA AI Presentation Generator

Raycast

403.3K

Descubra um lançador ágil e personalizável, criado para aprimorar seu foco ao simplificar a gestão de suas ferramentas. Mantenha-se organizado e aumente sua produtividade com esta solução eficiente!

Produtividade AI Developer Tools

Slite

353.7K

Descubra o Slite, uma base de conhecimento impulsionada por IA, projetada para proporcionar acesso fácil a informações confiáveis da empresa ao seu alcance.

Base de conhecimento com inteligência artificial AI Knowledge Base

Find AI tools in YBX