Microsoft lanza Phi-3 para uso general y presenta Phi-3-Vision: un avance del modelo de lenguaje multimodal pequeño.

Microsoft está ampliando el acceso a su familia de modelos ligeros Phi-3 para desarrolladores, casi un mes después de su anuncio inicial. Esta familia incluye Phi-3-medium, Phi-3-small y Phi-3-mini, siendo este último ahora parte de Azure AI. Además, Microsoft lanzó la variante multimodal Phi-3-vision, que cuenta con 4.2 mil millones de parámetros.

Resumen de Phi-3

Desarrollado por Microsoft Research, Phi-3 es un potente modelo de lenguaje con 3 mil millones de parámetros, diseñado para ofrecer capacidades de razonamiento sólidas comparables a modelos más grandes, pero a un costo reducido. Esta es la cuarta iteración de los modelos de lenguaje compactos de Microsoft, después de Phi-1, Phi-1.5 y Phi-2.

Agentes de IA y Modelos Más Pequeños

La creciente demanda de soluciones de IA que operen localmente o en dispositivos impulsa a los desarrolladores a explorar modelos más eficientes y pequeños. La familia Phi-3 de Microsoft incluye tres opciones: Phi-3-mini (3.8 mil millones de parámetros), Phi-3-small (7 mil millones de parámetros) y Phi-3-medium (14 mil millones de parámetros). Según la empresa, Phi-3 presenta un rendimiento comparable al GPT-3.5 de OpenAI en un formato más ligero.

El lanzamiento de Phi-3 coincide con la introducción de capacidades de IA en PCs. Los desarrolladores ahora pueden aprovechar estas variantes para mejorar la funcionalidad de IA en laptops, dispositivos móviles y wearables.

Perspectivas sobre Phi-3-vision

Además de los modelos Phi-3, Microsoft está presentando Phi-3-vision, que admite tareas generales de razonamiento visual, incluyendo el análisis de gráficos, tablas y diagramas. Con 4.2 mil millones de parámetros, los usuarios pueden interactuar con Phi-3-vision planteando preguntas sobre visualizaciones de datos o imágenes específicas.

Cabe destacar que Google también presentó su modelo multimodal ligero, PaliGemma, en su reciente conferencia para desarrolladores, que cuenta con 3 mil millones de parámetros, ligeramente menos que el de Microsoft.

La capacidad de la IA para procesar diversos tipos de entrada es crucial para los desarrolladores. Un modelo que combina la eficiencia de una arquitectura ligera con el rendimiento de modelos de lenguaje más grandes podría potenciar significativamente su adopción.

Aunque Phi-3-vision está actualmente en vista previa, Microsoft aún no ha anunciado su disponibilidad pública.

Most people like

Find AI tools in YBX