Ein neues großes Sprachmodell (LLM) hat anscheinend OpenAI's GPT-4 nur einen Monat nach dessen Veröffentlichung übertroffen. Der Claude 3.5 Sonnet Chatbot, entwickelt von Anthropic, behauptet, in wichtigen Drittanbieter-Benchmarks die Branche anzuführen und dabei schneller sowie kosteneffizienter als frühere Claude-Modelle zu sein.
Dennoch ist die Einführung eines neuen Modells und die Behauptung von Überlegenheit etwas anderes, als wenn Nutzer tatsächlich Performancegewinne erleben. (Google Gemini-Familie, merkt euch das: Man sagt, ihr übertrefft OpenAI's früheres Flaggschiff, GPT-4, in einigen Metriken, doch die realen Anwendungsfälle erzählen eine andere Geschichte.)
Im Gegensatz dazu hat Claude 3.5 Sonnet seit seiner Veröffentlichung erhebliche Aufmerksamkeit erregt, da KI-Influencer und Power-User ihre positiven Erfahrungen online teilen. Sie zeigen die beeindruckenden Fähigkeiten dieses sogenannten "intelligentesten" LLMs, der heute verfügbar ist.
Fortschritte bei Codierungsfähigkeiten und Produktentwicklung
Die Enterprise-KI-Influencerin Allie K. Miller hob auf X hervor, dass Claude 3.5 Sonnet ein vollständig spielbares Spiel allein basierend auf einem Screenshot in weniger als dreißig Sekunden erstellt hat. Zudem demonstrierte das informative X-Konto @TestingCatalog News den neu eingeführten "Artifacts"-Spielplatz, der zusammen mit Claude 3.5 Sonnet vorgestellt wurde und seine Fähigkeit zeigt, echten Code für ein funktionierendes Webformular zu generieren, das vom Chatbot entworfen wurde. Das Modell rekreierte sogar Bilder, die vom Film „Hackers“ von 1995 inspiriert sind.
Pietro Schirano, Gründer des Unternehmens EverArt für KI-Bilderzeugung, bemerkte auf X, dass die Kombination von Claude 3.5 Sonnet mit dem Tool Maestro „Funken von AGI“ zeigte.
Unterstützung des Claude 3.5 Sonnet durch Anthropic-Mitarbeiter
Obwohl Unterstützer des Modells, wie der Entwicklungsleiter Alex Albert von Anthropic, über die wachsende Kompetenz von Claude 3.5 Sonnet beim Codieren und autonomem Beheben von Pull-Requests twitterten, deutete er an, dass ein erheblicher Teil des Codes innerhalb eines Jahres von LLMs generiert werden könnte. Ebenso teilte die technische Mitarbeiterin Maggie Vo auf X mit, dass Claude 3.5 Sonnet nun „die Hälfte meiner Arbeit erledigt… und ich könnte nicht glücklicher sein.“
OpenAI unter Druck
Angesichts der Überlegenheit von Claude 3.5 Sonnet gegenüber GPT-4 und des wettbewerbsfähigen Preises sieht sich OpenAI wachsendem Druck ausgesetzt, die Leistungen seines Modells zu rechtfertigen. Ethan Mollick, Professor an der Wharton School of Business, verglich die Artifacts-Funktion mit einer vereinfachten Version von OpenAI's GPT-4 Code Interpreter. Der Nutzer @kimmonismus äußerte sogar, dass OpenAI das Risiko laufe, „durch AGI zu schlafen“, das Ziel, eine KI zu entwickeln, die in wirtschaftlich wichtigen Aufgaben überlegene Leistungen gegenüber Menschen erbringt. Er kritisierte das Unternehmen dafür, dass es zusätzliche GPT-4-Funktionen angekündigt hat, die bisher nicht realisiert sind, wie neue Sprachmodi.
Einschränkungen bestehen weiterhin
Trotz der Begeisterung um Claude 3.5 Sonnet bemerkten Kritiker, dass es nach wie vor Schwierigkeiten mit grundlegenden kognitiven Aufgaben hat, wie zum Beispiel beim Spielen von Tic-Tac-Toe. Der Technikjournalist Timothy B. Lee, bekannt als @binarybits auf X, wies darauf hin, dass das Modell manchmal humorvolle Fehler macht, und teilte einen Screenshot, auf dem es fälschlicherweise behauptete, dass drei Viertel mehr wert seien als 100 Pennies.
Insgesamt stellt Claude 3.5 Sonnet einen bedeutenden Fortschritt für Anthropic und die Landschaft der LLMs dar. Auch wenn einige Probleme bestehen bleiben, zeigt das Modell, dass die Fortschritte in der KI-Technologie weiterhin beschleunigt werden, angetrieben durch die aktuellen Rechenressourcen.