Microsoft präsentiert Orca 2: Kompakte Sprachmodelle, die ihre größeren Konkurrenten übertreffen.

Während OpenAI mit Machtkämpfen und massiven Rücktritten konfrontiert ist, schreitet Microsoft mit seinen AI-Ambitionen voran. Heute hat das Unternehmen Orca 2 vorgestellt, ein Duo von kleinen Sprachmodellen, die in komplexen Denkaufgaben unter Zero-Shot-Bedingungen entweder gleichwertig oder erheblich leistungsfähiger sind als deutlich größere Modelle – bis zu zehnmal so groß, einschließlich Meta’s Llama-2 Chat-70B.

Die Orca 2 Modelle sind in zwei Größen verfügbar: 7 Milliarden und 13 Milliarden Parameter. Sie bauen auf dem vorherigen 13B Orca-Modell auf, das eindrucksvolle Denkfähigkeiten demonstrierte, indem es das schrittweise Denken größerer, fortschrittlicherer Modelle nachahmte, die vor Monaten entwickelt wurden.

„Mit Orca 2 zeigen wir, dass verbesserte Trainingssignale und -methoden kleineren Sprachmodellen ermöglichen, Denkfähigkeiten zu erreichen, die typischerweise größeren Modellen vorbehalten sind“, erklärten Microsoft-Forscher in einem Blogbeitrag.

Beide Modelle sind als Open Source verfügbar, um weitere Forschung zu ermöglichen und die Bewertung kleinerer Modelle zu unterstützen, die eine ähnliche Leistung wie ihre größeren Kollegen bieten können. Diese Initiative bietet Unternehmen, insbesondere mit begrenzten Ressourcen, eine zugänglichere Option, um ihren spezifischen Bedürfnissen gerecht zu werden, ohne erhebliche Rechenleistung zu erfordern.

Kleine Modelle zum Denken bringen

Während große Sprachmodelle wie GPT-4 mit ihren Denk- und komplexen Frage-Antwort-Fähigkeiten beeindrucken, blieben kleinere Modelle historisch hinter den Erwartungen zurück. Um diese Lücke zu schließen, optimierte Microsoft Research die Llama 2 Basismodelle mithilfe eines speziellen synthetischen Datensatzes.

Anstatt lediglich das Verhalten größerer Modelle nachzuahmen – eine gängige Technik, die als Imitationslernen bekannt ist – verfolgten die Forscher einen anderen Ansatz. Sie trainierten die kleineren Modelle, verschiedene Problemlösungsstrategien, die auf unterschiedliche Aufgaben zugeschnitten sind, anzuwenden. Während GPT-4 komplexe Anfragen direkt beantworten kann, könnte ein kleineres Modell davon profitieren, die Aufgabe in überschaubare Schritte zu zerlegen.

„In Orca 2 lehren wir das Modell mehrere Denktechniken (schrittweise, abrufen und dann generieren, abrufen-dann-denken-generieren, direkte Antwort usw.) und konzentrieren uns darauf, es zu unterstützen, die effektivste Strategie für jede Aufgabe zu identifizieren“, schrieben die Forscher in ihrer neuesten Publikation. Die Trainingsdaten stammen von einem fähigeren Lehrermodell, das es dem Schülermodell ermöglicht, zu lernen, wann und wie unterschiedliche Denkansätze anzuwenden sind.

Orca 2 übertrifft größere Modelle

Bei der Bewertung über 15 verschiedene Benchmarks in Zero-Shot-Einstellungen – darunter Sprachverständnis, gesundes Menschenverstand, mehrstufiges Denken, Mathematikproblemlösungen, Leseverständnis, Zusammenfassungen und Wahrhaftigkeit – erzielten die Orca 2 Modelle bemerkenswerte Ergebnisse und erreichten häufig die Leistungsebenen von Modellen, die fünf bis zehnmal größer sind.

Die durchschnittlichen Benchmark-Ergebnisse zeigten, dass beide Orca 2 Modelle die Llama-2-Chat-13B, Llama-2-Chat-70B, WizardLM-13B und WizardLM-70B übertrafen, mit Ausnahme des GSM8K-Benchmarks – einem Datensatz von über 8.500 Mathematikproblemen für Grundschüler – wo WizardLM-70B Orca übertraf.

Überlegungen zur Implementierung in Unternehmen

Während diese Leistungssteigerungen für Unternehmens-Teams, die effiziente und leistungsstarke Modelle für kosteneffektive Anwendungen suchen, vielversprechend sind, ist es wichtig zu erkennen, dass Orca 2 Modelle möglicherweise Einschränkungen aufweisen, die für alle Sprachmodelle typisch sind, sowie die ihrer Basismodelle.

Microsoft betonte, dass die Techniken, die zur Erstellung der Orca-Modelle angewendet wurden, auch auf andere bestehende Modelle übertragen werden könnten. „Obwohl Orca 2 mehrere Einschränkungen aufweist, ist das Potenzial zur Verbesserung von Denken, Spezialisierung, Kontrolle und Sicherheit in kleineren Modellen offensichtlich. Der strategische Einsatz sorgfältig gefilterter synthetischer Daten ist der Schlüssel zu diesen Verbesserungen. Während größere Modelle weiterhin überzeugen, stellt unsere Arbeit mit Orca 2 einen bedeutenden Schritt zur Diversifizierung der Anwendungen von Sprachmodellen dar“, resümierte das Forschungsteam.

Zukunft kleiner Sprachmodelle

Mit der Verfügbarkeit der Open-Source Orca 2 Modelle und der fortgesetzten Forschung in diesem Bereich ist klar, dass weitere leistungsstarke kleine Sprachmodelle am Horizont stehen.

Vor kurzem hat 01.AI, ein von dem AI-Veteranen Kai-Fu Lee gegründetes chinesisches Start-up, ein 34-Milliarden-Parameter-Modell veröffentlicht, das in sowohl Chinesisch als auch Englisch hervorragend ist und sogar die 70-Milliarden Llama 2 und 180-Milliarden Falcon-Modelle übertrifft. Das Start-up bietet auch eine kleinere Version mit 6 Milliarden Parametern an, die in etablierten AI/ML-Benchmarks gut abschneidet.

Zusätzlich hat Mistral AI – ein neues, in Paris ansässiges Start-up, das für sein einzigartiges Word Art-Logo und seine Rekord-Seed-Runde von 118 Millionen Dollar Aufmerksamkeit erregte – ein 7 Milliarden Parameter-Modell eingeführt, das größere Konkurrenten, einschließlich Meta’s Llama 2 13B, übertrifft.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles