A Microsoft está expandindo o acesso à sua família de modelos leves Phi-3 para desenvolvedores, quase um mês após o anúncio inicial. Essa família inclui Phi-3-medium, Phi-3-small e Phi-3-mini, sendo que este último agora está integrado ao Azure AI. Além disso, a Microsoft apresentou a variante multimodal, Phi-3-vision, que conta com 4,2 bilhões de parâmetros.
Visão Geral do Phi-3
Desenvolvido pela Microsoft Research, o Phi-3 é um robusto modelo de linguagem com 3 bilhões de parâmetros, projetado para oferecer capacidades de raciocínio forte, comparáveis a modelos maiores, mas a um custo menor. Essa é a quarta iteração dos modelos compactos de linguagem da Microsoft, sucedendo Phi-1, Phi-1.5 e Phi-2.
Agentes de IA e Modelos Menores
A crescente demanda por soluções de IA que operem localmente ou em dispositivos está incentivando os desenvolvedores a explorar modelos menores e mais eficientes. A família Phi-3 da Microsoft inclui três opções: Phi-3-mini (3,8 bilhões de parâmetros), Phi-3-small (7 bilhões de parâmetros) e Phi-3-medium (14 bilhões de parâmetros). De acordo com a empresa, o Phi-3 apresenta desempenho equivalente ao GPT-3.5 da OpenAI, em um formato mais leve.
O lançamento do Phi-3 coincide com a introdução iminente de capacidades de IA em PCs. Os desenvolvedores agora podem aproveitar essas variantes para aprimorar a funcionalidade de IA em laptops, dispositivos móveis e wearables.
Insights sobre Phi-3-vision
Além dos modelos Phi-3, a Microsoft está apresentando o Phi-3-vision, que suporta tarefas gerais de raciocínio visual, incluindo a análise de gráficos, tabelas e imagens. Com 4,2 bilhões de parâmetros, os usuários podem interagir com o Phi-3-vision fazendo perguntas sobre visualizações de dados ou imagens específicas.
Notavelmente, a Google também lançou seu modelo multimodal leve, PaliGemma, em sua recente conferência de desenvolvedores, apresentando 3 bilhões de parâmetros, um número ligeiramente inferior ao da Microsoft.
A capacidade da IA de processar diversos tipos de entrada é crucial para os desenvolvedores. Um modelo que combine a eficiência de uma arquitetura leve com o desempenho de modelos de linguagem maiores pode melhorar significativamente a adoção.
Embora o Phi-3-vision esteja atualmente em pré-visualização, a Microsoft ainda não anunciou sua disponibilidade pública.