Sieben der acht Autoren des bahnbrechenden Papiers „Attention is All You Need“, das die Transformer-Technologie einführte, versammelten sich heute erstmals als Gruppe zu einem Gespräch mit Nvidia-CEO Jensen Huang in einem vollbesetzten Ballsaal der GTC-Konferenz. Zu ihnen gehörten Noam Shazeer, Mitbegründer und CEO von Character.ai; Aidan Gomez, Mitbegründer und CEO von Cohere; Ashish Vaswani, Mitbegründer und CEO von Essential AI; Llion Jones, Mitbegründer und CTO von Sakana AI; Illia Polosukhin, Mitbegründer von NEAR Protocol; Jakob Uskhoreit, Mitbegründer und CEO von Inceptive; sowie Lukasz Kaiser, Mitglied des technischen Personals bei OpenAI. Niki Parmar, Mitbegründerin von Essential AI, konnte nicht teilnehmen.
Im Jahr 2017 erzielte das achtköpfige Team von Google Brain mit den Transformern einen Durchbruch in der neuronalen Netzwerk-NLP-Technologie, die den Kontext und die Bedeutung von Wörtern genauer erfasste als ihre Vorgänger: rekurrente neuronale Netzwerke und Long Short-Term Memory-Netzwerke. Die Transformer-Architektur wurde zur Grundlage von LLMs wie GPT-4 und ChatGPT sowie für nicht-sprachliche Anwendungen wie OpenAIs Codex und DeepMinds AlphaFold.
„Die Welt braucht etwas Besseres als Transformer“
Die Schöpfer der Transformer blicken jedoch über das hinaus, was sie aufgebaut haben – sie fragen sich, was als Nächstes für KI-Modelle kommt. Gomez von Cohere stellte fest, dass „die Welt jetzt etwas Besseres als Transformer benötigt“, und fügte hinzu: „Ich glaube, wir alle hier hoffen auf etwas, das uns auf ein neues Leistungsniveau hebt.“ Er fragte die Gruppe: „Was seht ihr als Nächstes? Das ist der aufregende Schritt, denn ich denke, [was derzeit existiert] ist zu ähnlich dem, was vor sechs, sieben Jahren war.“
In einer Diskussion mit Journalisten nach dem Panel erweiterte Gomez seine Kommentare und sagte, dass „es wirklich traurig wäre, wenn [Transformer] das Beste ist, was wir leisten können“, und dass er seit dem Tag nach der Einreichung des Papiers „Attention is All You Need“ so gedacht habe. „Ich möchte sehen, dass es durch etwas anderes, das zehnmal besser ist, ersetzt wird, denn das bedeutet, dass jeder Zugang zu Modellen hat, die zehnmal besser sind.“
Er wies darauf hin, dass es viele Ineffizienzen auf der Speicherseite der Transformer gibt und dass viele architektonische Komponenten des Transformers seit Beginn unverändert geblieben sind und neu „überdacht und erkundet“ werden sollten. Zum Beispiel erklärt er, dass ein sehr langer Kontext teuer und nicht skalierbar wird. Zudem sei „die Parameterisierung vielleicht unnötig groß; wir könnten sie viel mehr komprimieren und Gewichte viel häufiger teilen – das könnte die Dinge um einen Faktor reduzieren.“
„Man muss eindeutig besser sein“
Er gab zu, dass, während die übrigen Autoren des Papiers wahrscheinlich zustimmen würden, sie es für unterschiedlich wahrscheinlich halten, wann dies geschehen wird. „Und vielleicht variieren die Überzeugungen, ob es geschehen wird. Aber jeder wünscht sich etwas Besseres – wir sind schließlich alle Wissenschaftler im Herzen – und das bedeutet einfach, dass wir Fortschritt sehen möchten.“
Während des Panels wies Jones von Sakana jedoch darauf hin, dass die KI-Branche, um nach den Transformern – was auch immer das sein mag – den nächsten Schritt zu gehen, nicht nur besser sein, sondern „eindeutig, offensichtlich besser“ sein muss. „Im Moment steckt man am ursprünglichen Modell fest, obwohl es wahrscheinlich technisch nicht das leistungsstärkste ist, was wir gerade haben.“
Gomez stimmte zu und erklärte gegenüber den Medien, dass die Transformer nicht nur aufgrund des guten Modells und der Architektur populär geworden seien, sondern weil die Menschen sich dafür begeistert hätten – man brauche beides. „Wenn eines von beidem fehlt, kannst du die Gemeinschaft nicht bewegen“, erklärte er. „Um die Dynamik zu katalysieren, die notwendig ist, um von einer Architektur zur anderen zu wechseln, musst du wirklich etwas präsentieren, das die Menschen begeistert.“