OpenAIs neuestes "Strawberry"-Modell O1: Ein revolutionärer Fortschritt in der Problemlösungsfähigkeit
Am 12. September hat OpenAI überraschend das mit Spannung erwartete "Strawberry"-Modell veröffentlicht, das die erste Version in der neuen Reihe von Denkmodellen mit der Bezeichnung O1 markiert. Derzeit sind die O1-Vorabversion (o1-preview) und die Mini-Version (o1-mini) für ChatGPT Plus- und Team-Abonnenten verfügbar, während Enterprise- und Edu-Nutzer Anfang nächster Woche Zugang erhalten. OpenAI plant zudem, O1-mini schließlich auch allen kostenlosen Nutzern anzubieten, ein spezifisches Datum steht jedoch noch nicht fest.
Laut OpenAI nähert sich das O1-Modell der Problemlösung auf eine Weise, die menschlichem Denken ähnelt, und zeichnet sich besonders in Mathematik, Programmierung und Wissenschaft aus.
Um die Fähigkeiten des o1-preview-Modells zu bewerten, führte ein Journalist der Daily Economic News Tests in fünf Dimensionen durch: den Strawberry-Test, Programmierung, Mini-Spielerstellung, Mathematik und Wirtschaft sowie faktisches Wissen. Die Ergebnisse zeigten, dass o1-preview frühere OpenAI-Modelle im Programmieren und mathematischen Denken übertraf, indem es funktionierenden Code erzeugte und autonom Lösungen für komplexe Szenarien herleitete. Außerdem wies o1-preview einen deutlich verbesserten, menschenähnlichen Denkstil auf. In Bezug auf faktisches Wissen enttäuschte es jedoch.
Die Denkfähigkeiten von O1
Das O1-Modell stellt einen bedeutenden Fortschritt für OpenAI in Richtung der Schaffung menschlicher KI dar. OpenAI hat beschlossen, die "GPT"-Marke bei diesem Modell vollständig abzulegen, da es eine grundlegend neue Fähigkeit verkörpert. Es geht systematisch Probleme in diskreten Schritten an, die menschliches Denken nachahmen.
Jakub Pachocki, der wissenschaftliche Leiter von OpenAI, bemerkte, dass O1 einen vorsichtigeren Ansatz bei der Beantwortung von Fragen zeigt, indem es schrittweise analysiert und Probleme Schritt für Schritt aufschlüsselt, um verbesserte Antworten zu liefern, die menschliche Denkprozesse widerspiegeln.
Im Bereich des Programmierens und der Mathematik gehörte O1 zu den besten Akteuren, wobei die Genauigkeit in physikalischen, biologischen und chemischen Tests sogar die von promovierten Menschen übertraf.
Umfassende Testergebnisse
1. Strawberry-Test
Der Journalist stellte die einfache Frage: „Wie viele 'r's sind im Wort 'strawberry'?“ O1-preview lieferte eine unerwartet präzise Antwort und übertraf frühere Modelle.
2. Programmierung
Bei der Programmieraufgabe zum klassischen "Two Sum"-Problem präsentierte o1-preview einen detaillierten Denkprozess zusammen mit der Lösung. Auf die Frage hin, die Antwort zu optimieren, benötigte O1 neun Sekunden, um zu bestätigen, dass die Lösung optimal war, und schlug zudem eine suboptimale Variante vor.
3. Mini-Spielerstellung
Bei der Erstellung eines Mini-Spiels generierte o1-preview innerhalb von 19 Sekunden einen reibungslos laufenden Pong-Spiele-Code, einschließlich eines Lernleitfadens und motivierender Anmerkungen. Bei der Aufforderung, ein komplexeres Spiel zu erstellen, iterierte O1 und produzierte ein ansprechendes Sprungspiel, das seine innovativen Denkfähigkeiten demonstrierte.
4. Wissenschaftliche Tests
In Mathematik- und Wirtschaftstests lieferte o1-preview grundlegende Einsichten zu berühmten Problemen wie der Eulerschen Gleichung und bewahrte eine klare Logik. Bei komplexen Fragen zu Wirtschaftssystemen zeigte O1 multidimensionales Denken und Lösungen.
5. Faktisches Wissen
In Bezug auf faktisches Wissen missinterpretierte o1-preview einfache Anfragen, indem es Trivia mit tatsächlichen historischen Ereignissen verwechselte, während GPT-4o in diesem Bereich überlegen abschloss.
Fazit
Zusammenfassend lässt sich sagen, dass OpenAIs Aussage, das O1-Modell nähere sich dem menschlichen Denkniveau, keine Übertreibung ist. Seine Denkprozesse zeigen eine menschenähnlichere Verwendung der Sprache, obwohl OpenAI einräumt, dass das Design und die Textverarbeitungskapazitäten hinter denen von GPT-4o zurückbleiben.
Während O1 in mehreren Aspekten hervorragend abschneidet, zeigt es weiterhin Schwankungen in der Bearbeitung einfacher Anfragen. OpenAI hat angekündigt, dass zukünftige Updates diese Mängel beheben werden, und betont, dass es sich hierbei lediglich um die frühe Vorschauphase des Denkmodells handelt.