Microsoft erweitert den Zugang zu seiner Phi-3-Modellfamilie für Entwickler, knapp einen Monat nach der ursprünglichen Ankündigung. Diese Familie umfasst Phi-3-medium, Phi-3-small und Phi-3-mini, wobei letzterer nun in Azure AI integriert ist. Darüber hinaus hat Microsoft die multimodale Variante Phi-3-vision vorgestellt, die mit 4,2 Milliarden Parametern ausgestattet ist.
Übersicht über Phi-3
Phi-3, entwickelt von Microsoft Research, ist ein leistungsstarkes Sprachmodell mit 3 Milliarden Parametern, das starke Denkfähigkeiten bietet, die mit größeren Modellen vergleichbar sind, jedoch zu geringeren Kosten. Dies stellt die vierte Generation von Microsofts kompakten Sprachmodellen dar, nach Phi-1, Phi-1.5 und Phi-2.
KI-Agenten und kleinere Modelle
Der steigende Bedarf an KI-Lösungen, die lokal oder auf Geräten operieren, ermutigt Entwickler, effizientere und kleinere Modelle zu erforschen. Die Phi-3-Familie umfasst drei Optionen: Phi-3-mini (3,8 Milliarden Parameter), Phi-3-small (7 Milliarden Parameter) und Phi-3-medium (14 Milliarden Parameter). Laut Microsoft zeigt Phi-3 eine Leistung, die mit OpenAI's GPT-3.5 in einem leichteren Format vergleichbar ist.
Die Veröffentlichung von Phi-3 fällt mit der bevorstehenden Einführung von KI-Funktionen in PCs zusammen. Entwickler können diese Varianten jetzt nutzen, um die KI-Funktionalität auf Laptops, Mobilgeräten und Wearables zu verbessern.
Einblicke in Phi-3-vision
Neben den Phi-3-Modellen stellt Microsoft Phi-3-vision vor, das allgemeine visuelle Denkaufgaben unterstützt, einschließlich der Analyse von Diagrammen, Grafiken und Tabellen. Mit 4,2 Milliarden Parametern können Nutzer Phi-3-vision nutzen, um Fragen zu Datenvisualisierungen oder spezifischen Bildern zu stellen.
Bemerkenswert ist, dass Google auf seiner kürzlichen Entwicklerkonferenz ebenfalls sein leichtgewichtiges multimodales Modell PaliGemma vorgestellt hat, das mit 3 Milliarden Parametern ausgestattet ist, also etwas weniger als das von Microsoft.
Die Fähigkeit der KI, verschiedene Eingabetypen zu verarbeiten, ist für Entwickler von entscheidender Bedeutung. Ein Modell, das die Effizienz einer leichten Architektur mit der Leistung größerer Sprachmodelle kombiniert, könnte die Akzeptanz erheblich steigern.
Obwohl Phi-3-vision derzeit in der Vorschau verfügbar ist, hat Microsoft noch keine öffentliche Verfügbarkeit angekündigt.