Forscher Enthüllen: Google Gemini kann mit GPT-3.5 Turbo nicht mithalten

Home KI-Nachrichten Forscher Enthüllen: Google Gemini kann mit GPT-3.5 Turbo nicht mithalten

Updated on Dezember 19 2023

Oh, Google. Wirst du jemals ein KI-Produkt beim ersten Versuch erfolgreich auf den Markt bringen?

Weniger als einen Monat nach dem Launch von Gemini, dem mit Spannung erwarteten ChatGPT-Konkurrenten, sah sich Google erheblichem Kritik ausgesetzt, nachdem bestätigt wurde, dass die Interaktionen in seiner werblichen Demo inszeniert waren. Jüngste Forschungen zeigen, dass die fortschrittlichste Version für Verbraucher, Gemini Pro, in den meisten Aufgaben hinter OpenAIs GPT-3.5 Turbo zurückbleibt.

Die Ergebnisse, präsentiert von einem Team der Carnegie Mellon University und BerriAI in ihrem Papier „Ein tieferer Einblick in die Sprachfähigkeiten von Gemini“, offenbaren, dass Gemini Pro in verschiedenen Aufgaben im Vergleich zu GPT-3.5 Turbo leicht schlechter abschneidet. Das auf arXiv.org veröffentlichte Papier hebt hervor, dass die Genauigkeit von Gemini Pro am 19. Dezember 2023 deutlich weniger beeindruckend war als die des älteren OpenAI-Modells.

Ein Sprecher von Google äußerte, dass interne Untersuchungen zeigen, dass Gemini Pro GPT-3.5 übertrifft und dass eine leistungsstärkere Version, Gemini Ultra, Anfang 2024 erwartet wird, die in internen Tests angeblich GPT-4 übertreffen soll. Er sagte: „Gemini Pro übertrifft optimierte Inferenzmodelle wie GPT-3.5 und schneidet vergleichbar mit anderen führenden Modellen ab.“

Die Forscher testeten vier große Sprachmodelle (LLMs): Google Gemini Pro, OpenAI GPT-3.5 Turbo, GPT-4 Turbo und Mistrals Mixtral 8x7B. Über vier Tage hinweg nutzten sie die KI-Aggregatorseite LiteLLM, um die Modelle mit verschiedenen Eingaben zu bewerten, darunter 57 Multiple-Choice-Fragen aus den Bereichen MINT, Geisteswissenschaften und Sozialwissenschaften.

Im Wissens-basierten QA-Test erzielte Gemini Pro 64,12/60,63, während GPT-3.5 Turbo 67,75/70,07 und GPT-4 Turbo 80,48/78,95 erreichte. Auffällig war, dass Gemini häufig die Antwortmoeglichkeit „D“ favorisierte, was auf eine mögliche Verzerrung durch unzureichende Anweisung für Multiple-Choice-Formate hinweist. Zudem hatte es mit spezifischen Kategorien wie menschlicher Sexualität und formaler Logik aufgrund von Sicherheitsantworten Schwierigkeiten.

Gemini Pro übertraf zwar GPT-3.5 Turbo in Fragen zur Mikroökonomie und Sicherheit auf Schulniveau, jedoch waren diese Unterschiede gering. Bei längeren oder komplexeren Abfragen zeigte Gemini Pro eine geringere Genauigkeit im Vergleich zu beiden GPT-Modellen, obwohl es bei Wortsortierung und Symbolmanipulation gute Leistungen erbrachte.

In den Programmierfähigkeiten schnitt Gemini erneut schlechter ab und war bei Python-Code-Aufgaben nicht so leistungsfähig wie GPT-3.5 Turbo. Obwohl Gemini Pro beim Übersetzen von Sprachen vielversprechend war und mehrere Sprachen besser als GPT-3.5 Turbo und GPT-4 Turbo beherrschte, zeigte es eine Tendenz zur Blockierung von Antworten in vielen Sprachpaaren aufgrund von Inhaltsmoderation.

Die Auswirkungen dieser Ergebnisse sind erheblich für Googles KI-Ambitionen. Mit der bevorstehenden Veröffentlichung von Gemini Ultra könnte Google weiterhin hinter OpenAI in der Leistung generativer KI zurückbleiben. Interessanterweise zeigte die Forschung auch, dass Mistrals Mixtral 8x7B in den meisten Aufgaben schlechter abschnitt als GPT-3.5 Turbo, was darauf hindeutet, dass Gemini Pro zwar nicht das beste Modell ist, jedoch einige aufstrebende Konkurrenten übertrifft.

Insgesamt verstärkt die Studie die Auffassung, dass OpenAI derzeit seine Führungsposition im Bereich der generativen KI beibehält. Experten wie der Professor der University of Pennsylvania, Ethan Mollick, bemerken, dass GPT-4 für die meisten Einzelanwendungen nach wie vor die überlegene Wahl bleibt – zumindest bis Gemini Ultra nächstes Jahr veröffentlicht wird.

Ist ein Chevy für 1 Dollar möglich? Die Risiken von KI-Chatbots im Kundenservice der Automobilbranche 조사하기

Patronus AI identifiziert besorgniserregende Sicherheitsanfälligkeiten in wichtigen KI-Systemen.

Most people like

Homeworkify.im: The GPT-4o Powered Homeworkify Alternative

179.6K

In einer zunehmend digitalen Welt stehen Schüler vor einzigartigen Herausforderungen auf ihrem akademischen Weg. Unsere KI-gestützte Hausaufgabenhilfe-Plattform wurde entwickelt, um zeitnahe und effektive Unterstützung zu bieten, damit Lernende schwierige Fächer bewältigen und ihr Verständnis verbessern können. Indem wir fortschrittliche Algorithmen und intelligente Ressourcen nutzen, befähigen wir Schüler, mit Zuversicht akademischen Erfolg zu erzielen. Egal, ob Sie Schwierigkeiten in Mathe, Naturwissenschaften oder Literatur haben, unsere Plattform bietet personalisierte Anleitung, die auf Ihre Bedürfnisse zugeschnitten ist, sodass Sie nie allein lernen müssen. Begrüßen Sie die Zukunft der Bildung mit unserer innovativen Lösung!

KI-gestützte Hausaufgabenhilfe Homework Helper

Insight7

103.7K

Willkommen bei Insight7, der innovativen KI-Plattform zur Automatisierung der Kundenanalyse. Durch die Optimierung dieses Prozesses spart Insight7 nicht nur wertvolle Zeit, sondern deckt auch verborgene Wachstumschancen auf. Erfahren Sie, wie Insight7 Ihren Umgang mit Datenanalysen revolutionieren und Ihre Entscheidungsfindung verbessern kann.

KI-gestützte Kundenanalysen AI Product Description Generator

Imagine AI Art Generator

1.7M

Tauchen Sie ein in die fesselnde Welt der KI-generierten Kunst, die aus Texthinweisen entsteht. Entdecken Sie, wie künstliche Intelligenz geschriebene Worte in atemberaubende visuelle Meisterwerke verwandelt und dabei Kreativität und Technologie auf innovative Weise verbindet. Diese faszinierende Schnittstelle verbessert nicht nur den künstlerischen Ausdruck, sondern eröffnet auch neue Wege für Kreativität und macht Kunst für alle zugänglicher. Begleiten Sie uns, während wir in dieses aufregende Reich eintauchen, in dem Vorstellungskraft auf Algorithmen trifft.

KI-Kunst AI Art Generator

Massed Compute

69.8K

Entdecken Sie die Vorteile von Cloud-Anbietern, die GPU-Mietservices anbieten – ideal für eine Vielzahl von Rechenaufgaben. Egal, ob Sie verstärkte Rechenleistung für maschinelles Lernen, Videowiedergabe oder komplexe Simulationen benötigen, GPU-Mieten bieten eine flexible und kosteneffiziente Lösung. Erfahren Sie, wie diese Dienste Ihre Projekte voranbringen und Innovationen in der heutigen datengestützten Landschaft fördern können.

Cloud-Computing AI Analytics Assistant

Find AI tools in YBX