Überprüfung des neuen O1-Modells von OpenAI: Hervorragend in der Programmierung und Spieleentwicklung, aber Schwierigkeiten mit faktischem Wissen

OpenAIs neuestes "Strawberry"-Modell O1: Ein revolutionärer Fortschritt in der Problemlösungsfähigkeit

Am 12. September hat OpenAI überraschend das mit Spannung erwartete "Strawberry"-Modell veröffentlicht, das die erste Version in der neuen Reihe von Denkmodellen mit der Bezeichnung O1 markiert. Derzeit sind die O1-Vorabversion (o1-preview) und die Mini-Version (o1-mini) für ChatGPT Plus- und Team-Abonnenten verfügbar, während Enterprise- und Edu-Nutzer Anfang nächster Woche Zugang erhalten. OpenAI plant zudem, O1-mini schließlich auch allen kostenlosen Nutzern anzubieten, ein spezifisches Datum steht jedoch noch nicht fest.

Laut OpenAI nähert sich das O1-Modell der Problemlösung auf eine Weise, die menschlichem Denken ähnelt, und zeichnet sich besonders in Mathematik, Programmierung und Wissenschaft aus.

Um die Fähigkeiten des o1-preview-Modells zu bewerten, führte ein Journalist der Daily Economic News Tests in fünf Dimensionen durch: den Strawberry-Test, Programmierung, Mini-Spielerstellung, Mathematik und Wirtschaft sowie faktisches Wissen. Die Ergebnisse zeigten, dass o1-preview frühere OpenAI-Modelle im Programmieren und mathematischen Denken übertraf, indem es funktionierenden Code erzeugte und autonom Lösungen für komplexe Szenarien herleitete. Außerdem wies o1-preview einen deutlich verbesserten, menschenähnlichen Denkstil auf. In Bezug auf faktisches Wissen enttäuschte es jedoch.

Die Denkfähigkeiten von O1

Das O1-Modell stellt einen bedeutenden Fortschritt für OpenAI in Richtung der Schaffung menschlicher KI dar. OpenAI hat beschlossen, die "GPT"-Marke bei diesem Modell vollständig abzulegen, da es eine grundlegend neue Fähigkeit verkörpert. Es geht systematisch Probleme in diskreten Schritten an, die menschliches Denken nachahmen.

Jakub Pachocki, der wissenschaftliche Leiter von OpenAI, bemerkte, dass O1 einen vorsichtigeren Ansatz bei der Beantwortung von Fragen zeigt, indem es schrittweise analysiert und Probleme Schritt für Schritt aufschlüsselt, um verbesserte Antworten zu liefern, die menschliche Denkprozesse widerspiegeln.

Im Bereich des Programmierens und der Mathematik gehörte O1 zu den besten Akteuren, wobei die Genauigkeit in physikalischen, biologischen und chemischen Tests sogar die von promovierten Menschen übertraf.

Umfassende Testergebnisse

1. Strawberry-Test

Der Journalist stellte die einfache Frage: „Wie viele 'r's sind im Wort 'strawberry'?“ O1-preview lieferte eine unerwartet präzise Antwort und übertraf frühere Modelle.

2. Programmierung

Bei der Programmieraufgabe zum klassischen "Two Sum"-Problem präsentierte o1-preview einen detaillierten Denkprozess zusammen mit der Lösung. Auf die Frage hin, die Antwort zu optimieren, benötigte O1 neun Sekunden, um zu bestätigen, dass die Lösung optimal war, und schlug zudem eine suboptimale Variante vor.

3. Mini-Spielerstellung

Bei der Erstellung eines Mini-Spiels generierte o1-preview innerhalb von 19 Sekunden einen reibungslos laufenden Pong-Spiele-Code, einschließlich eines Lernleitfadens und motivierender Anmerkungen. Bei der Aufforderung, ein komplexeres Spiel zu erstellen, iterierte O1 und produzierte ein ansprechendes Sprungspiel, das seine innovativen Denkfähigkeiten demonstrierte.

4. Wissenschaftliche Tests

In Mathematik- und Wirtschaftstests lieferte o1-preview grundlegende Einsichten zu berühmten Problemen wie der Eulerschen Gleichung und bewahrte eine klare Logik. Bei komplexen Fragen zu Wirtschaftssystemen zeigte O1 multidimensionales Denken und Lösungen.

5. Faktisches Wissen

In Bezug auf faktisches Wissen missinterpretierte o1-preview einfache Anfragen, indem es Trivia mit tatsächlichen historischen Ereignissen verwechselte, während GPT-4o in diesem Bereich überlegen abschloss.

Fazit

Zusammenfassend lässt sich sagen, dass OpenAIs Aussage, das O1-Modell nähere sich dem menschlichen Denkniveau, keine Übertreibung ist. Seine Denkprozesse zeigen eine menschenähnlichere Verwendung der Sprache, obwohl OpenAI einräumt, dass das Design und die Textverarbeitungskapazitäten hinter denen von GPT-4o zurückbleiben.

Während O1 in mehreren Aspekten hervorragend abschneidet, zeigt es weiterhin Schwankungen in der Bearbeitung einfacher Anfragen. OpenAI hat angekündigt, dass zukünftige Updates diese Mängel beheben werden, und betont, dass es sich hierbei lediglich um die frühe Vorschauphase des Denkmodells handelt.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles