Eine bahnbrechende Technik, entwickelt vom in Tokio ansässigen Startup Sakana AI, bekannt als Evolutionary Model Merge, automatisiert die Erstellung generativer Modelle. Inspiriert von der natürlichen Selektion kombiniert dieser Ansatz Elemente bestehender Modelle, um fortschrittlichere Iterationen zu produzieren.
Sakana AI wurde im August 2023 von namhaften KI-Forschern, darunter ehemalige Google-Experten wie David Ha und Llion Jones—Co-Autor des einflussreichen Papiers „Attention Is All You Need“—gegründet und steht an der Spitze der Innovation im Bereich generative KI.
Revolutionierung der Modellentwicklung
Sakanas Evolutionary Model Merge ermöglicht Entwicklern und Organisationen, neue Modelle kostengünstig zu erstellen und zu erkunden, wodurch die Notwendigkeit kostenintensiven Trainings und Feinabstimmungen proprietärer Modelle entfällt. Das Startup hat kürzlich große Sprachmodelle (LLMs) und visionäre Sprachmodelle (VLMs) vorgestellt, die mit dieser innovativen Technik entwickelt wurden.
Verständnis des Modell-Mergings
Das Training generativer Modelle ist oft prohibitv teuer und komplex. Mit dem Aufkommen offener Modelle wie Llama 2 und Mistral nutzen Entwickler jedoch das Modell-Merging—die Kombination verschiedener Komponenten von zwei oder mehr vortrainierten Modellen zur Bildung eines neuen Modells. Diese Methode ermöglicht es, dass das neu gemergte Modell die Stärken seiner Vorgänger erbt, ohne weiteres Training zu benötigen, und stellt somit eine äußerst kostengünstige Option dar. Viele führende Modelle auf den Open LLM-Leaderboards sind inzwischen gemergte Varianten beliebter Grundmodelle.
Die Forscher von Sakana AI betonen: „Eine lebendige Gemeinschaft von Forschern, Hackern und Künstlern entwickelt aktiv neue Grundmodelle, indem sie bestehende Modelle feinabstimmen und zusammenführen.“ Mit über 500.000 Modellen auf Hugging Face bietet das Modell-Merging umfangreiche Möglichkeiten zur Schaffung innovativer Lösungen bei minimalen Kosten, erfordert jedoch erhebliches Gespür und Fachwissen.
Einführung in Evolutionary Model Merge
Sakana AI zielt darauf ab, den Merging-Prozess systematisch zu optimieren. Durch evolutionäre Algorithmen—Optimierungstechniken, die natürliche Selektion nachahmen—ermöglicht Evolutionary Model Merge die Identifizierung der effektivsten Wege zur Kombination verschiedener Modelle. David Ha hebt hervor: „Die Fähigkeit, neue Modelle aus vielfältigen bestehenden Modellen zu entwickeln, hat entscheidende Implikationen.“ Angesichts der steigenden Ressourcennachfrage für das Training von Grundmodellen könnte dieser evolutionäre Ansatz für Institutionen oder Regierungen vorteilhaft sein, die schnell Prototypen entwickeln möchten, ohne erhebliche Investitionen tätigen zu müssen.
Evolutionary Model Merge funktioniert automatisch und bewertet die Schichten und Gewichte bestehender Modelle, um neue Architekturen zu schaffen, die auf die Benutzeranforderungen zugeschnitten sind.
Demonstration des evolutionären Mergings
Um das Potenzial dieses Ansatzes zu erkunden, haben die Forscher von Sakana AI Evolutionary Model Merge eingesetzt, um ein japanisches LLM zu schaffen, das mathematisches Denken beherrscht, sowie ein japanisches VLM. Die resultierenden Modelle übertrafen mehrere Benchmarks ohne explizite Optimierung. Ihr EvoLLM-JP, ein 7-Milliarden-Parameter japanisches Mathematik-LLM, schnitt sogar besser ab als einige Konkurrenzmodelle mit 70 Milliarden Parametern.
Für das japanische VLM kombinierte das Team LLaVa-1.6-Mistral-7B mit Shisa-Gamma 7B und erzeugte EvoVLM-JP, das sowohl LLaVa-1.6-Mistral-7B als auch das bereits bestehende JSVLM übertraf. Beide Modelle sind auf Hugging Face und GitHub verfügbar. Sakana AI passt auch seine Methoden des evolutionären Mergings für Bildgenerierungs-Diffusionsmodelle an, mit dem Ziel, die Leistung von Stable Diffusion XL für japanische Eingaben zu verbessern.
Sakana AIs Vision
Gegründet von David Ha und Llion Jones, strebt Sakana AI danach, von der Natur inspirierte Konzepte wie Evolution und kollektive Intelligenz zu nutzen, um grundlegende KI-Modelle zu entwickeln. Das Team ist überzeugt, dass die Zukunft der KI nicht in einem einzigen, allumfassenden System liegen wird, sondern in einem Netzwerk spezialisierter KI-Systeme, die auf unterschiedliche Nischen zugeschnitten sind und zusammenarbeiten sowie sich weiterentwickeln, um vielfältige Bedürfnisse zu erfüllen.