Etched a réussi à lever 120 millions de dollars pour défier Nvidia sur le marché des puces d'IA. L'entreprise développe une nouvelle puce nommée Sohu, conçue pour gérer un aspect crucial du traitement de l'IA : l'architecture des transformeurs. En intégrant cette architecture directement dans ses puces, Etched affirme créer les serveurs les plus puissants pour l'inférence des transformeurs, déclarant Sohu comme la puce de transformeur la plus rapide jamais fabriquée.
Cette annonce est particulièrement remarquable alors que Nvidia a récemment dépassé Microsoft pour devenir la société la plus précieuse au monde, atteignant une valorisation de 3,3 trillions de dollars. Soutenue par des investisseurs influents comme Peter Thiel, Etched est confiante dans la capacité de son équipe de 35 membres à rivaliser avec Nvidia. Le tour de financement, dirigé par Primary Venture Partners et Positive Sum Ventures, a attiré des investisseurs institutionnels tels que Hummingbird, Fundomo, Fontinalis, Lightscape, Earthshot, Two Sigma Ventures et Skybox Data Centers.
Parmi les investisseurs providentiels, on retrouve Peter Thiel, Stanley Druckenmiller, David Siegel, Balaji Srinivasan, Amjad Masad, Kyle Vogt, Kevin Hartz, Jason Warner, Thomas Dohmke, Bryan Johnson, Mike Novogratz, Immad Akhund, Jawed Karim et Charlie Cheeve. Alex Handy, directeur de la Thiel Fellowship, a déclaré : « Investir dans Etched représente un pari stratégique sur l'avenir de l'IA. Leurs puces répondent à des problèmes d'évolutivité que les concurrents hésitent à aborder, contribuant à lutter contre la stagnation observée ailleurs dans l'industrie. Les fondateurs illustrent le talent non conventionnel que nous soutenons, ayant quitté Harvard pour relever le défi des semi-conducteurs. Ils ouvrent la voie à l'innovation de la Silicon Valley sans le fardeau des préoccupations liées aux technologies héritées. »
La demande pour des GPU puissants ne cesse de croître. Etched a été fondée par des diplômés de Harvard, Robert Wachen, Gavin Uberti et Chris Zhu, qui se sont engagés vers l'IA depuis juin 2022, misant sur le potentiel transformateur du modèle de transformeur. Historiquement, divers modèles d'IA tels que les CNN, RNN et U-Nets ont joué un rôle important dans leurs domaines respectifs, mais les transformeurs (le « T » de ChatGPT) se sont imposés comme le premier modèle d'IA évolutif.
« Nous croyons que l'intelligence continuera à évoluer avec la puissance de calcul. Notre pari est que les entreprises investiront des milliards dans des modèles d'IA fonctionnant sur des puces spécialisées », a déclaré le PDG Gavin Uberti dans un article de blog. « Au cours des deux dernières années, nous avons développé Sohu, la première ASIC spécialisée au monde pour les transformeurs. Cette puce ne peut pas exécuter de modèles d'IA traditionnels, tels que les DLRM qui améliorent les fils Instagram ou les modèles de repliement de protéines, ni gérer les CNN ou RNN. Pourtant, pour les transformeurs, Sohu n'a pas d'égal en termes de vitesse et d'accessibilité, dépassant même de manière significative les futurs GPU Blackwell de Nvidia. »
Uberti a souligné que le paysage des modèles d'IA a considérablement évolué vers les transformeurs, illustré par des développements comme ChatGPT, Sora, Gemini et Stable Diffusion 3. Si de nouvelles architectures émergent, comme les SSM ou les mélangeurs monarchiques, les puces d'Etched pourraient perdre de leur pertinence. Cependant, si leurs prédictions se réalisent, Sohu pourrait révolutionner le marché. L'entreprise s'associe à TSMC pour la fabrication sur le nœud avancé de 4 nm.
Pourquoi ce pari ? Etched se concentre sur les transformeurs. Selon Etched, la clé pour atteindre la superintelligence réside dans l'échelle. En seulement cinq ans, les modèles d'IA ont évolué de formes rudimentaires à des performances surpassant les capacités humaines lors de tests standardisés, principalement grâce à une échelle accrue. En élargissant les modèles d'IA et en améliorant la qualité des données d'entraînement, ces systèmes deviennent significativement plus intelligents. La quantité de FLOPS nécessaire pour former des modèles de pointe a augmenté de manière fulgurante, passant de 50 000 fois de GPT-2 à Llama-3-400B en cinq ans.
Uberti a expliqué que, bien que les architectures d'IA aient évolué rapidement dans le passé, avec l'émergence de nombreux modèles, les systèmes actuels à la pointe, tels que Llama 3, ressemblent étroitement à leurs prédécesseurs comme GPT-2, avec seulement de légers ajustements. Cette tendance est susceptible de se poursuivre. « Tous les acteurs majeurs, y compris Google, OpenAI, Amazon et Microsoft, investissent plus de 100 milliards de dollars dans des centres de données d'IA », a noté Uberti. Malgré des avis divergents dans le milieu académique, les principaux laboratoires d'IA s'accordent largement à dire que l'évolutivité des modèles de langage larges (LLM) nous conduira vers la superintelligence.
Uberti a souligné : « Nous assistons à la plus grande expansion d'infrastructure de l'histoire. Les lois d'évolutivité ont montré un succès constant au cours des dix dernières ordres de grandeur (de 10^16 à 10^26 FLOPS). Si les projections s'avèrent pour les quatre ordres suivants (jusqu'à 10^30 FLOPS), la superintelligence est à portée de main, et les puces d'IA domineront la demande du marché. »
Les puces flexibles ont atteint un plateau. La perspective d'Etched sur les GPU. Au cours des dernières années, les changements fréquents dans les architectures de modèles, telles que les CNN, DLRM et LSTM, ont dominé le paysage de l'IA, chacune entraînant des coûts substantiels. Le marché global des puces d'IA oscille entre 10 et 20 milliards de dollars. Pour répondre à ce vaste marché, de nombreuses entreprises ont développé des puces d'IA polyvalentes pour diverses architectures, y compris les GPU de Nvidia, les TPU de Google, l'AWS Trainium et d'autres. Cependant, toutes ont eu du mal à égaler les performances de la H100 de Nvidia.
Uberti a noté : « De nombreux concurrents prétendent à des gains de performance en combinant plusieurs puces sur une seule carte, alors qu'en réalité, la performance par surface est restée stagnante—les défis demeurent pour quiconque cherchant à passer des GPU. » Etched affirme que chaque grand marché informatique finit par graviter vers des puces spécialisées, allant du réseau à l'exploitation minière de Bitcoin, offrant de vastes avantages en matière de performance par rapport aux GPU. Uberti a déclaré : « En raison des enjeux financiers immenses de l'IA, la spécialisation est inévitable. »
Etched prévoit que la majorité des investissements se concentreront sur des modèles dépassant 10 trillions de paramètres, qui fonctionneront probablement à partir de quelques grands centres de données cloud, en écho aux tendances observées dans la fabrication de puces, où des installations à coût élevé et haute résolution ont remplacé les plus petites. « Même si une architecture supérieure est développée, passer à autre chose que les transformeurs pose des défis considérables, car le travail fondamental doit être refait à travers divers aspects techniques », a-t-il ajouté. À mesure que la complexité des modèles d'IA augmente et que les coûts d'entraînement augmentent, la demande de puces spécialisées croît, rendant les premiers adoptants leaders du domaine.
Etched est positionnée pour diriger. Les fondateurs—Wachen, Uberti et Zhu—affirment qu'aucune puce d'IA spécifique à une architecture n'a été construite à ce jour. Auparavant, la création de telles puces spécialisées nécessitait une demande substantielle et une conviction quant à leur viabilité à long terme. « Nous avons choisi d'investir dans des transformeurs, qui gagnent rapidement du terrain », a déclaré Uberti.
Avec une demande croissante pour l'inférence des transformeurs dépassant maintenant 5 milliards de dollars, les grands acteurs technologiques, y compris OpenAI, Google, Amazon et Microsoft, ont intégré les modèles de transformeurs dans leurs opérations. Uberti a souligné que les différentes architectures se sont considérablement consolidées. Des modèles comme la série GPT d'OpenAI, PaLM de Google et LLaMa de Facebook sont largement centrés autour des transformeurs. « Nous avançons rapidement pour réaliser le potentiel de Sohu », a-t-il affirmé. « Nous sommes en bonne voie pour le cycle de développement le plus rapide pour un die validé de 4 nm. En collaboration avec TSMC, nous nous approvisionnons en HBM3E auprès de fournisseurs de premier plan, sécurisant des réservations de plusieurs dizaines de millions de la part d'entreprises d'IA. »
L'entreprise a également souligné que les modèles d'IA d'aujourd'hui sont souvent trop coûteux et lents pour livrer des produits efficacement, avec des défis tels que des coûts opérationnels élevés pour les agents de codage d'IA et des temps de traitement lents pour les modèles vidéo. Uberti a conclu : « Avec Sohu, nous pouvons transformer le paysage. Des capacités vidéo, audio, d'agents et de recherche en temps réel sont enfin à portée de main, améliorant radicalement la viabilité économique des produits d'IA. »
Etched peut-elle surpasser Nvidia ? L'approche distincte d'Etched en matière de traitement parallèle la positionne de manière unique sur le marché. En réponse à des questions sur la façon dont une petite entreprise pourrait surpasser Nvidia, le COO Robert Wachen a expliqué : « Historiquement, le marché du calcul IA était fragmenté, avec de nombreux modèles en usage actif. Des milliards ont été dépensés dans des modèles de transformeurs, indiquant un changement vers la spécialisation. Bien que nos puces ne surpassent pas les GPU dans des charges de travail généralisées, elles domineront l'inférence des transformeurs, essentielle pour les produits d'IA générative. » Cette spécialisation donne à Etched un avantage concurrentiel, permettant à ses puces d'exceller là où d'autres ne le peuvent pas.