Entfesseln Sie die Kraft von Google DataGemma AI: Ihr ultimativer Statistik-Experte

Home KI-Nachrichten Entfesseln Sie die Kraft von Google DataGemma AI: Ihr ultimativer Statistik-Experte

Updated on September 12 2024

Google erweitert seine KI-Modellreihe, um wichtige Herausforderungen im Bereich künstlicher Intelligenz anzugehen. Heute stellte das Unternehmen DataGemma vor, eine Suite von Open-Source-Modellen, die speziell entwickelt wurden, um Halluzinationen—falsche Antworten von großen Sprachmodellen (LLMs)—insbesondere bei statistischen Abfragen zu reduzieren.

Die neuen Modelle sind auf Hugging Face für Forschungs- und akademische Zwecke verfügbar und bauen auf der bestehenden Gemma-Familie auf, wobei sie umfangreiche Echtzeitdaten von Googles Data Commons-Plattform nutzen. Diese öffentliche Plattform beherbergt ein offenes Wissensgraph mit über 240 Milliarden Datenpunkten, die von renommierten Organisationen aus verschiedenen Sektoren wie Wirtschaft, Wissenschaft und Gesundheit stammen.

Herausforderung faktischer Halluzinationen

LLMs haben die Technologie revolutioniert und treiben Anwendungen von der Code-Generierung bis hin zu Kundensupport voran, während sie die Ressourcennutzung für Unternehmen optimieren. Dennoch besteht das Problem der Halluzinationen—insbesondere im Zusammenhang mit numerischen und statistischen Daten—weiterhin.

Laut Google-Forschern tragen Faktoren wie die probabilistische Natur der LLM-Ausgaben und unzureichende faktische Abdeckung in den Trainingsdaten zu diesem Phänomen bei. Traditionelle Methoden zur Verankerung hatten Schwierigkeiten mit statistischen Abfragen, da die öffentlichen Daten unterschiedliche Schemata und Formate aufweisen, die einen erheblichen Kontext für eine präzise Interpretation erfordern.

Um diese Lücken zu schließen, integrierten die Forscher Data Commons, eines der größten Repositorys für normierte öffentliche statistische Daten, mit der Gemma-Familie von Sprachmodellen und schufen DataGemma.

Innovative Ansätze zur Verbesserung der Genauigkeit

DataGemma verwendet zwei verschiedene Methoden zur Verbesserung der faktischen Genauigkeit:

1. Retrieval Interleaved Generation (RIG): Dieser Ansatz integriert faktische Genauigkeit, indem die ursprüngliche Ausgabe des LLM mit relevanten Statistiken aus Data Commons verglichen wird. Das verfeinerte LLM erzeugt beschreibende natürliche Sprachabfragen, die in strukturierte Datenabfragen umgewandelt werden, um statistisch relevante Antworten einschließlich Quellenangaben abzurufen.

2. Retrieval-Augmented Generation (RAG): Diese Methode verbessert Modelle, indem sie originale statistische Fragen nutzt, um relevante Variablen zu extrahieren und natürliche Sprachabfragen an Data Commons zu richten. Die extrahierten Daten, kombiniert mit der ursprünglichen Frage, werden dann verwendet, um ein langzeitkontextfähiges LLM (hier: Gemini 1.5 Pro) zur präzisen Antwortgenerierung anzustoßen.

Vielversprechende Ergebnisse in Tests

In ersten Tests mit 101 Abfragen verbesserten die mit RIG feinjustierten DataGemma-Modelle die faktische Genauigkeit um 5-17% gegenüber der Ausgangsbasis und erreichten etwa 58% Genauigkeit. Obwohl RAG etwas schwächere Ergebnisse erzielte, übertraf es dennoch die Basismodelle.

DataGemma beantwortete 24-29% der Abfragen erfolgreich mit statistischen Antworten aus Data Commons und behielt eine Genauigkeit von 99% bei numerischen Werten bei. Es hatte jedoch 6-20% der Zeit Schwierigkeiten, genaue Schlussfolgerungen aus den Zahlen zu ziehen.

Beide Techniken, RIG und RAG, zeigen ihre Wirksamkeit bei der Verbesserung der Modellgenauigkeit für statistische Abfragen, insbesondere in Forschungs- und Entscheidungsfindungskontexten. RIG bietet Schnelligkeit, während RAG umfangreichere Daten liefert, jedoch von der Verfügbarkeit der Informationen und den größeren Handhabungsfähigkeiten des Kontextes abhängt.

Google plant, die Forschung zu diesen Methoden durch die öffentliche Veröffentlichung von DataGemma mit RIG und RAG voranzutreiben. Das Unternehmen erklärte: "Unsere Forschung ist fortlaufend, und wir setzen uns dafür ein, diese Methoden zu verfeinern, während wir diese Arbeit ausbauen, strenge Tests sicherzustellen und diese verbesserte Funktionalität schrittweise und in begrenztem Umfang in die Gemma- und Gemini-Modelle zu integrieren."

Verstehen der neuen o1-Preview- und o1-Mini-Modelle von OpenAI: Wichtige Einblicke für Entwickler

Vergessen Sie GPT-5! OpenAI präsentiert die neue KI-Modellreihe o1 mit Leistungen auf Doktoratsniveau.

Most people like

Solidroad

26.1K

Revolutionierung der Schulung: Eine KI-gestützte Plattform für kundenorientierte Teams Nutzen Sie das Potenzial Ihrer kundenorientierten Teams mit unserer modernsten, KI-gestützten Schulungsplattform. Speziell entwickelt zur Verbesserung von Fähigkeiten und Leistung, stattet unsere Lösung Ihre Mitarbeiter mit den notwendigen Werkzeugen aus, um in Kundeninteraktionen zu glänzen. Erleben Sie unvergleichliches Wachstum und Kundenzufriedenheit durch innovative Schulungsmethoden, die für den dynamischen Markt von heute konzipiert sind.

KI-Schulungsplattform AI Customer Service Assistant

Wonderchat

58K

Entfesseln Sie die Kraft von Wonderchat, um einen maßgeschneiderten Chatbot zu erstellen, der Ihre Reaktionsgeschwindigkeit gegenüber Kunden um 100 % steigert und gleichzeitig Ihre Arbeitslast erheblich reduziert. Verwandeln Sie Ihre Kundeninteraktionen und optimieren Sie mühelos Ihre Geschäftsabläufe!

KI-Chatbot AI Chatbot

BypassAI

327K

Verwandeln Sie KI-generierte Inhalte in ansprechenden, menschenähnlichen Text mit dem führenden ChatGPT-Umgehungstool. Erleben Sie den Unterschied in Klarheit und Nuance, der Ihre Kommunikation verbessert!

KI-Menschenverbesserer AI Detector

Tome

1.2M

Entdecken Sie eine bahnbrechende KI-gestützte Plattform, die zum Entwickeln und Teilen von Ideen durch fesselnde Inhalte, beeindruckende Bilder und wirkungsvolle Präsentationen konzipiert ist.

KI-gestützt AI Content Generator

Find AI tools in YBX