Microsoft präsentiert Orca 2: Kompakte Sprachmodelle, die ihre größeren Konkurrenten übertreffen.

Home KI-Nachrichten Microsoft präsentiert Orca 2: Kompakte Sprachmodelle, die ihre größeren Konkurrenten übertreffen.

Updated on November 20 2023

Während OpenAI mit Machtkämpfen und massiven Rücktritten konfrontiert ist, schreitet Microsoft mit seinen AI-Ambitionen voran. Heute hat das Unternehmen Orca 2 vorgestellt, ein Duo von kleinen Sprachmodellen, die in komplexen Denkaufgaben unter Zero-Shot-Bedingungen entweder gleichwertig oder erheblich leistungsfähiger sind als deutlich größere Modelle – bis zu zehnmal so groß, einschließlich Meta’s Llama-2 Chat-70B.

Die Orca 2 Modelle sind in zwei Größen verfügbar: 7 Milliarden und 13 Milliarden Parameter. Sie bauen auf dem vorherigen 13B Orca-Modell auf, das eindrucksvolle Denkfähigkeiten demonstrierte, indem es das schrittweise Denken größerer, fortschrittlicherer Modelle nachahmte, die vor Monaten entwickelt wurden.

„Mit Orca 2 zeigen wir, dass verbesserte Trainingssignale und -methoden kleineren Sprachmodellen ermöglichen, Denkfähigkeiten zu erreichen, die typischerweise größeren Modellen vorbehalten sind“, erklärten Microsoft-Forscher in einem Blogbeitrag.

Beide Modelle sind als Open Source verfügbar, um weitere Forschung zu ermöglichen und die Bewertung kleinerer Modelle zu unterstützen, die eine ähnliche Leistung wie ihre größeren Kollegen bieten können. Diese Initiative bietet Unternehmen, insbesondere mit begrenzten Ressourcen, eine zugänglichere Option, um ihren spezifischen Bedürfnissen gerecht zu werden, ohne erhebliche Rechenleistung zu erfordern.

Kleine Modelle zum Denken bringen

Während große Sprachmodelle wie GPT-4 mit ihren Denk- und komplexen Frage-Antwort-Fähigkeiten beeindrucken, blieben kleinere Modelle historisch hinter den Erwartungen zurück. Um diese Lücke zu schließen, optimierte Microsoft Research die Llama 2 Basismodelle mithilfe eines speziellen synthetischen Datensatzes.

Anstatt lediglich das Verhalten größerer Modelle nachzuahmen – eine gängige Technik, die als Imitationslernen bekannt ist – verfolgten die Forscher einen anderen Ansatz. Sie trainierten die kleineren Modelle, verschiedene Problemlösungsstrategien, die auf unterschiedliche Aufgaben zugeschnitten sind, anzuwenden. Während GPT-4 komplexe Anfragen direkt beantworten kann, könnte ein kleineres Modell davon profitieren, die Aufgabe in überschaubare Schritte zu zerlegen.

„In Orca 2 lehren wir das Modell mehrere Denktechniken (schrittweise, abrufen und dann generieren, abrufen-dann-denken-generieren, direkte Antwort usw.) und konzentrieren uns darauf, es zu unterstützen, die effektivste Strategie für jede Aufgabe zu identifizieren“, schrieben die Forscher in ihrer neuesten Publikation. Die Trainingsdaten stammen von einem fähigeren Lehrermodell, das es dem Schülermodell ermöglicht, zu lernen, wann und wie unterschiedliche Denkansätze anzuwenden sind.

Orca 2 übertrifft größere Modelle

Bei der Bewertung über 15 verschiedene Benchmarks in Zero-Shot-Einstellungen – darunter Sprachverständnis, gesundes Menschenverstand, mehrstufiges Denken, Mathematikproblemlösungen, Leseverständnis, Zusammenfassungen und Wahrhaftigkeit – erzielten die Orca 2 Modelle bemerkenswerte Ergebnisse und erreichten häufig die Leistungsebenen von Modellen, die fünf bis zehnmal größer sind.

Die durchschnittlichen Benchmark-Ergebnisse zeigten, dass beide Orca 2 Modelle die Llama-2-Chat-13B, Llama-2-Chat-70B, WizardLM-13B und WizardLM-70B übertrafen, mit Ausnahme des GSM8K-Benchmarks – einem Datensatz von über 8.500 Mathematikproblemen für Grundschüler – wo WizardLM-70B Orca übertraf.

Überlegungen zur Implementierung in Unternehmen

Während diese Leistungssteigerungen für Unternehmens-Teams, die effiziente und leistungsstarke Modelle für kosteneffektive Anwendungen suchen, vielversprechend sind, ist es wichtig zu erkennen, dass Orca 2 Modelle möglicherweise Einschränkungen aufweisen, die für alle Sprachmodelle typisch sind, sowie die ihrer Basismodelle.

Microsoft betonte, dass die Techniken, die zur Erstellung der Orca-Modelle angewendet wurden, auch auf andere bestehende Modelle übertragen werden könnten. „Obwohl Orca 2 mehrere Einschränkungen aufweist, ist das Potenzial zur Verbesserung von Denken, Spezialisierung, Kontrolle und Sicherheit in kleineren Modellen offensichtlich. Der strategische Einsatz sorgfältig gefilterter synthetischer Daten ist der Schlüssel zu diesen Verbesserungen. Während größere Modelle weiterhin überzeugen, stellt unsere Arbeit mit Orca 2 einen bedeutenden Schritt zur Diversifizierung der Anwendungen von Sprachmodellen dar“, resümierte das Forschungsteam.

Zukunft kleiner Sprachmodelle

Mit der Verfügbarkeit der Open-Source Orca 2 Modelle und der fortgesetzten Forschung in diesem Bereich ist klar, dass weitere leistungsstarke kleine Sprachmodelle am Horizont stehen.

Vor kurzem hat 01.AI, ein von dem AI-Veteranen Kai-Fu Lee gegründetes chinesisches Start-up, ein 34-Milliarden-Parameter-Modell veröffentlicht, das in sowohl Chinesisch als auch Englisch hervorragend ist und sogar die 70-Milliarden Llama 2 und 180-Milliarden Falcon-Modelle übertrifft. Das Start-up bietet auch eine kleinere Version mit 6 Milliarden Parametern an, die in etablierten AI/ML-Benchmarks gut abschneidet.

Zusätzlich hat Mistral AI – ein neues, in Paris ansässiges Start-up, das für sein einzigartiges Word Art-Logo und seine Rekord-Seed-Runde von 118 Millionen Dollar Aufmerksamkeit erregte – ein 7 Milliarden Parameter-Modell eingeführt, das größere Konkurrenten, einschließlich Meta’s Llama 2 13B, übertrifft.

AI21 sichert sich zusätzliche 53 Millionen US-Dollar, um im Unternehmensmarkt für generative KI mit OpenAI zu konkurrieren.

2024: Die Entfaltung von Microsofts KI-gestützter Vision für Zero Trust-Sicherheit

Most people like

Tensor.Art

In der heutigen digitalen Landschaft revolutioniert die Nutzung von KI-generierten Bildern die Art und Weise, wie wir visuelle Inhalte erstellen und teilen. Egal, ob Sie ein Künstler sind, der sein Portfolio erweitern möchte, oder ein Unternehmen, das sein Publikum fesseln will; das Erlernen der Produktion und Präsentation dieser innovativen Bilder kann Ihre Online-Präsenz erheblich steigern. Dieser Leitfaden bietet Ihnen Schritt-für-Schritt-Anleitungen zur Erstellung einzigartiger KI-Bilder und deren effektiven Veröffentlichung, damit Sie im digitalen Raum einen bleibenden Eindruck hinterlassen.

TensorFlow AI Photo & Image Generator

LTX Studio

726.9K

Revolutionieren Sie Ihr Geschichtenerzählen mit unserer KI-gesteuerten Filmemach-Plattform, die Ihnen vollständige kreative Kontrolle bietet.

KI-gesteuert Text to Video

Wonder AI

52.9K

Entfesseln Sie die Kraft der Kreativität mit unserem Leitfaden zur Transformation von Text in atemberaubende digitale Kunst. Entdecken Sie, wie Sie innovative Werkzeuge und Techniken nutzen können, um Wörter in fesselnde visuelle Darstellungen zu verwandeln. Egal, ob Sie ein angehender Künstler oder ein erfahrener Profi sind, erfahren Sie, wie Sie Ihre Kunstwerke aufwerten, indem Sie beeindruckende digitale Designs direkt aus Ihrer Vorstellungskraft erstellen.

KI-Kunstgenerator AI Art Generator

Song.do

5.5K

Entfesseln Sie Ihre Kreativität mit einem kostenlosen KI-Song-Generator, der Ihre musikalischen Ideen in fesselnde Melodien verwandelt. Egal, ob Sie ein angehender Songwriter oder ein erfahrener Musiker sind, dieses innovative Tool nutzt fortschrittliche künstliche Intelligenz, um Ihnen zu helfen, innerhalb von Minuten originelle Songs zu komponieren. Nutzen Sie die Zukunft der Musikproduktion und entdecken Sie endlose Möglichkeiten mit einer benutzerfreundlichen Plattform, die für jeden entwickelt wurde. Tauchen Sie noch heute in die Welt der KI-gesteuerten Musikproduktion ein!

KI-Songgenerator AI Lyrics Generator

Find AI tools in YBX