A Microsoft Lança o Phi-3 para Uso Geral e Apresenta o Phi-3-Vision: Uma Prévia do Modelo de Linguagem Pequena Multimodal

A Microsoft está expandindo o acesso à sua família de modelos leves Phi-3 para desenvolvedores, quase um mês após o anúncio inicial. Essa família inclui Phi-3-medium, Phi-3-small e Phi-3-mini, sendo que este último agora está integrado ao Azure AI. Além disso, a Microsoft apresentou a variante multimodal, Phi-3-vision, que conta com 4,2 bilhões de parâmetros.

Visão Geral do Phi-3

Desenvolvido pela Microsoft Research, o Phi-3 é um robusto modelo de linguagem com 3 bilhões de parâmetros, projetado para oferecer capacidades de raciocínio forte, comparáveis a modelos maiores, mas a um custo menor. Essa é a quarta iteração dos modelos compactos de linguagem da Microsoft, sucedendo Phi-1, Phi-1.5 e Phi-2.

Agentes de IA e Modelos Menores

A crescente demanda por soluções de IA que operem localmente ou em dispositivos está incentivando os desenvolvedores a explorar modelos menores e mais eficientes. A família Phi-3 da Microsoft inclui três opções: Phi-3-mini (3,8 bilhões de parâmetros), Phi-3-small (7 bilhões de parâmetros) e Phi-3-medium (14 bilhões de parâmetros). De acordo com a empresa, o Phi-3 apresenta desempenho equivalente ao GPT-3.5 da OpenAI, em um formato mais leve.

O lançamento do Phi-3 coincide com a introdução iminente de capacidades de IA em PCs. Os desenvolvedores agora podem aproveitar essas variantes para aprimorar a funcionalidade de IA em laptops, dispositivos móveis e wearables.

Insights sobre Phi-3-vision

Além dos modelos Phi-3, a Microsoft está apresentando o Phi-3-vision, que suporta tarefas gerais de raciocínio visual, incluindo a análise de gráficos, tabelas e imagens. Com 4,2 bilhões de parâmetros, os usuários podem interagir com o Phi-3-vision fazendo perguntas sobre visualizações de dados ou imagens específicas.

Notavelmente, a Google também lançou seu modelo multimodal leve, PaliGemma, em sua recente conferência de desenvolvedores, apresentando 3 bilhões de parâmetros, um número ligeiramente inferior ao da Microsoft.

A capacidade da IA de processar diversos tipos de entrada é crucial para os desenvolvedores. Um modelo que combine a eficiência de uma arquitetura leve com o desempenho de modelos de linguagem maiores pode melhorar significativamente a adoção.

Embora o Phi-3-vision esteja atualmente em pré-visualização, a Microsoft ainda não anunciou sua disponibilidade pública.

Most people like

Find AI tools in YBX