Forscher Enthüllen: Google Gemini kann mit GPT-3.5 Turbo nicht mithalten

Oh, Google. Wirst du jemals ein KI-Produkt beim ersten Versuch erfolgreich auf den Markt bringen?

Weniger als einen Monat nach dem Launch von Gemini, dem mit Spannung erwarteten ChatGPT-Konkurrenten, sah sich Google erheblichem Kritik ausgesetzt, nachdem bestätigt wurde, dass die Interaktionen in seiner werblichen Demo inszeniert waren. Jüngste Forschungen zeigen, dass die fortschrittlichste Version für Verbraucher, Gemini Pro, in den meisten Aufgaben hinter OpenAIs GPT-3.5 Turbo zurückbleibt.

Die Ergebnisse, präsentiert von einem Team der Carnegie Mellon University und BerriAI in ihrem Papier „Ein tieferer Einblick in die Sprachfähigkeiten von Gemini“, offenbaren, dass Gemini Pro in verschiedenen Aufgaben im Vergleich zu GPT-3.5 Turbo leicht schlechter abschneidet. Das auf arXiv.org veröffentlichte Papier hebt hervor, dass die Genauigkeit von Gemini Pro am 19. Dezember 2023 deutlich weniger beeindruckend war als die des älteren OpenAI-Modells.

Ein Sprecher von Google äußerte, dass interne Untersuchungen zeigen, dass Gemini Pro GPT-3.5 übertrifft und dass eine leistungsstärkere Version, Gemini Ultra, Anfang 2024 erwartet wird, die in internen Tests angeblich GPT-4 übertreffen soll. Er sagte: „Gemini Pro übertrifft optimierte Inferenzmodelle wie GPT-3.5 und schneidet vergleichbar mit anderen führenden Modellen ab.“

Die Forscher testeten vier große Sprachmodelle (LLMs): Google Gemini Pro, OpenAI GPT-3.5 Turbo, GPT-4 Turbo und Mistrals Mixtral 8x7B. Über vier Tage hinweg nutzten sie die KI-Aggregatorseite LiteLLM, um die Modelle mit verschiedenen Eingaben zu bewerten, darunter 57 Multiple-Choice-Fragen aus den Bereichen MINT, Geisteswissenschaften und Sozialwissenschaften.

Im Wissens-basierten QA-Test erzielte Gemini Pro 64,12/60,63, während GPT-3.5 Turbo 67,75/70,07 und GPT-4 Turbo 80,48/78,95 erreichte. Auffällig war, dass Gemini häufig die Antwortmoeglichkeit „D“ favorisierte, was auf eine mögliche Verzerrung durch unzureichende Anweisung für Multiple-Choice-Formate hinweist. Zudem hatte es mit spezifischen Kategorien wie menschlicher Sexualität und formaler Logik aufgrund von Sicherheitsantworten Schwierigkeiten.

Gemini Pro übertraf zwar GPT-3.5 Turbo in Fragen zur Mikroökonomie und Sicherheit auf Schulniveau, jedoch waren diese Unterschiede gering. Bei längeren oder komplexeren Abfragen zeigte Gemini Pro eine geringere Genauigkeit im Vergleich zu beiden GPT-Modellen, obwohl es bei Wortsortierung und Symbolmanipulation gute Leistungen erbrachte.

In den Programmierfähigkeiten schnitt Gemini erneut schlechter ab und war bei Python-Code-Aufgaben nicht so leistungsfähig wie GPT-3.5 Turbo. Obwohl Gemini Pro beim Übersetzen von Sprachen vielversprechend war und mehrere Sprachen besser als GPT-3.5 Turbo und GPT-4 Turbo beherrschte, zeigte es eine Tendenz zur Blockierung von Antworten in vielen Sprachpaaren aufgrund von Inhaltsmoderation.

Die Auswirkungen dieser Ergebnisse sind erheblich für Googles KI-Ambitionen. Mit der bevorstehenden Veröffentlichung von Gemini Ultra könnte Google weiterhin hinter OpenAI in der Leistung generativer KI zurückbleiben. Interessanterweise zeigte die Forschung auch, dass Mistrals Mixtral 8x7B in den meisten Aufgaben schlechter abschnitt als GPT-3.5 Turbo, was darauf hindeutet, dass Gemini Pro zwar nicht das beste Modell ist, jedoch einige aufstrebende Konkurrenten übertrifft.

Insgesamt verstärkt die Studie die Auffassung, dass OpenAI derzeit seine Führungsposition im Bereich der generativen KI beibehält. Experten wie der Professor der University of Pennsylvania, Ethan Mollick, bemerken, dass GPT-4 für die meisten Einzelanwendungen nach wie vor die überlegene Wahl bleibt – zumindest bis Gemini Ultra nächstes Jahr veröffentlicht wird.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles