Nvidia, Hugging Face und ServiceNow haben StarCoder2 ins Leben gerufen, eine fortschrittliche Suite von Open-Access-Modelle für große Sprachmodelle (LLMs), die auf die Verbesserung der KI-gesteuerten Codegenerierung abzielt. Aktuell sind die Modelle in drei Größen erhältlich und wurden auf über 600 Programmiersprachen, einschließlich weniger bekannter, trainiert, was Unternehmen ermöglicht, verschiedene Codierungsaufgaben innerhalb ihrer Entwicklungsabläufe zu optimieren. Die Entwicklung erfolgte im Rahmen des offenen BigCode-Projekts—einer gemeinsamen Initiative von ServiceNow und Hugging Face, die die verantwortungsvolle Nutzung von LLMs für Code fördert und ihnen eine lizenzfreie Nutzung unter Open Responsible AI Licenses (OpenRAIL) ermöglicht.
„StarCoder2 verkörpert die Stärke offener wissenschaftlicher Zusammenarbeit in Verbindung mit verantwortungsvollen KI-Praktiken“, erklärte Harm de Vries, Leiter des StarCoder2-Entwicklungsteams bei ServiceNow. „Dieses hochmoderne Modell steigert die Produktivität der Entwickler und demokratisiert den Zugang zur KI-gesteuerten Codegenerierung, sodass Organisationen jeder Größe ihr volles Geschäftspotenzial ausschöpfen können.“
StarCoder2: Drei Modelle für unterschiedliche Bedürfnisse
Das ursprüngliche StarCoder LLM umfasste ein einzelnes Modell mit 15 Milliarden Parametern, das auf 80 Programmiersprachen trainiert wurde. Im Gegensatz dazu bietet StarCoder2 drei verschiedene Größen—3B, 7B und 15B—die auf 619 Programmiersprachen trainiert wurden. Der Trainingsdatensatz, bekannt als The Stack, ist über siebenmal größer als der Vorgänger.
Wesentlich ist, dass neue Trainingstechniken implementiert wurden, um die Fähigkeit der Modelle zu verbessern, Code in ressourcenarmen Sprachen wie COBOL sowie mathematische Ausdrücke und Diskussionen über Programmquellcode zu verstehen und zu generieren.
Das 3B-Modell nutzt das Fast LLM-Framework von ServiceNow, während das 7B-Modell das Nanotron-Framework von Hugging Face verwendet. Beide sind für eine hochleistungsfähige Text-zu-Code- und Text-zu-Workflow-Generierung konzipiert und minimieren die Rechenanforderungen. Das 15B-Modell hingegen ist mit dem cloud-nativen NeMo-Framework von Nvidia und der Nvidia TensorRT-LLM-Software optimiert.
Kollaborative Innovation: ServiceNow, Hugging Face und Nvidia
Obwohl sich die Leistung dieser Modelle in verschiedenen Codierungsszenarien noch zeigen muss, deuten erste Tests darauf hin, dass das 3B-Modell vergleichbare Ergebnisse wie das ursprüngliche 15B StarCoder LLM erzielt. Unternehmsteams können jedes dieser Modelle mit ihren spezifischen Daten anpassen, um Anwendungen wie die Quellcodegenerierung, Workflow-Automatisierung, Codevervollständigung, erweiterte Zusammenfassungen und Snippet-Abruf zu realisieren.
Das umfassende Training der Modelle verbessert deren Fähigkeit, präzise und kontextbewusste Vorhersagen zu treffen, wodurch die Entwicklungsprozesse beschleunigt werden und Ingenieure sich auf wichtigere Herausforderungen konzentrieren können.
„Jedes Software-Ökosystem weist eine einzigartige Programmiersprache auf, und Code-LLMs können signifikante Fortschritte in Effizienz und Innovation in verschiedenen Branchen fördern“, bemerkte Jonathan Cohen, Vizepräsident für angewandte Forschung bei Nvidia. „Unsere Partnerschaft mit ServiceNow und Hugging Face bietet sichere, verantwortungsvoll entwickelte Modelle, die den Zugang zu accountable Generative AI für die globale Gemeinschaft erweitern.“
StarCoder2 kennenlernen
Alle Modelle der StarCoder2-Familie sind unter der Open RAIL-M-Lizenz verfügbar und bieten lizenzfreien Zugang. Unterlagen dazu sind im GitHub-Repository des BigCode-Projekts zu finden, und die Modelle können auch über Hugging Face heruntergeladen werden. Zudem ist das 15B-Modell über die Nvidia AI Foundation zugänglich, was Entwicklern die Möglichkeit gibt, direkt über ihre Browser oder eine API zu experimentieren.
Während StarCoder einen bedeutenden Fortschritt in der KI-gesteuerten Codegenerierung darstellt, ist es nicht allein auf diesem Gebiet. Wettbewerber wie OpenAI mit Codex (das GitHub Copilot antreibt), Amazons CodeWhisper und andere wie Replit und Codenium erforschen ebenfalls die Möglichkeiten von LLMs in der Anwendungsentwicklung.