Chet Kapoor, CEO de DataStax — une entreprise de bases de données cloud utilisant l'Apache Cassandra open-source — a déclaré lors de la conférence AI.Dev à Silicon Valley que Cassandra est la « meilleure base de données pour l'IA générative. »
L'Arrivée des Agents IA
Kapoor a fait cette déclaration devant un public de 700 personnes lors de l'événement de la Linux Foundation, soulignant la compétition intense entre startups et entreprises établies pour diriger le domaine en pleine mutation de l'IA générative. Alors que les grandes marques explorent des options technologiques, le choix des fournisseurs de bases de données devient crucial. Tandis que des acteurs comme OpenAI, Anthropic, Google (Gemini) et Meta (Llama) suscitent beaucoup d'intérêt, la bataille pour la suprématie des bases de données parmi les entreprises soutenant les applications de modèles de langue (LLM) est tout aussi féroce.
Dans son discours, Kapoor a exposé plusieurs raisons pour lesquelles la base de données Cassandra de DataStax se distingue. C'est l'une des bases de données opérationnelles les plus fiables, plébiscitée par les entreprises. De nombreuses organisations ont réussi à déployer l'IA générative à grande échelle en utilisant Cassandra, et ses avantages technologiques lui permettent de surpasser des concurrents tels que MongoDB et Pinecone.
DataStax envisage également une introduction en bourse, et Kapoor semble désireux de susciter l'intérêt. En juin dernier, l'entreprise a levé 115 millions de dollars avec une valorisation de 1,6 milliard de dollars. Bien que DataStax n'ait pas divulgué de détails financiers, Kapoor a noté qu'elle est dans le viseur des banques souhaitant rendre publiques des sociétés en 2024-2025.
Les Points Clés de Kapoor :
1. Popularité et Fiabilité de Cassandra
Cassandra est une base de données opérationnelle de premier plan, surtout alors que des entreprises comme Microsoft et Amazon promeuvent leurs services cloud avec des bases de données intégrées pour l'IA générative. Ces géants de la technologie incitent les utilisateurs à adopter leurs plateformes en supprimant les obstacles, y compris les processus complexes de migration des données. Kapoor a critiqué avec humour ces fournisseurs cloud pour avoir compliqué les solutions : « Il y en a une pour aller aux toilettes le matin... puis une pour l'après-midi, et une pour le soir. » Il a expliqué que l'IA générative pousse les DSI des entreprises à rechercher des bases de données intégrées pour des requêtes fluides, un domaine où Cassandra excelle. En revanche, les bases de données de Microsoft et Amazon se concentrent généralement sur les charges de travail analytiques, ce qui peut entraîner des inefficacités coûteuses dans les tâches opérationnelles liées à l'IA générative.
DataStax privilégie la rentabilité et la performance, attirant ainsi les clients du Fortune 500. Parmi les utilisateurs notables de Cassandra figurent Netflix pour les métadonnées de films, FedEx pour le suivi des colis, Apple pour les données iCloud et iMessage, et Home Depot pour les opérations de site Web. À mesure que les organisations développent de nouvelles applications d'IA, leur succès établi avec Cassandra favorise une consolidation continue autour de cette technologie.
2. Déploiements Actifs de l'IA Générative
Kapoor a mis en avant neuf entreprises utilisant la base de données cloud Astra DB de DataStax pour l'IA générative. Bien que de nombreuses entreprises expérimentent l'IA générative, peu sont passées à la production à grande échelle, principalement en raison de préoccupations concernant la sécurité et la fiabilité. Avec l'augmentation des tensions dans l'industrie, un changement de dépenses vers des déploiements réels est anticipé l'année prochaine.
Parmi les clients notables déployant des LLM, on trouve :
- Physics Wallah : Une plateforme éducative indienne atteignant 6 millions d'utilisateurs avec un bot polyvalent basé sur un LLM, développé en seulement 55 jours.
- Skypoint : Un service de santé pour seniors qui utilise un LLM pour des plans de traitement personnalisés, libérant plus de 10 heures par semaine pour les médecins.
D'autres incluent Hey You, Reel Star, Arre, Hornet, Restworld, Sourcetable, et Concide. Kapoor a noté que les petites et moyennes entreprises peuvent s'adapter rapidement, tandis que les grandes entreprises sont confrontées à davantage d'obstacles réglementaires.
3. Performance Technologique Supérieure
Kapoor a souligné les avancées de DataStax dans les capacités de recherche vectorielle d'Astra, un élément clé pour les bases de données dédiées à l'IA générative. La technologie JVector d'Astra offre une pertinence supérieure de 16 % comparée au concurrent principal Pinecone. Ceci est essentiel pour garantir des résultats précis. Un rapport de référence à venir fournira des informations supplémentaires, mais les résultats préliminaires indiquent qu'Astra offre un traitement des transactions supérieur à la fois à Pinecone et MongoDB.
Astra DB propose un accès sans latence aux données vectorisées, de l'indexation à la requête.
À Venir : Adoption Rapide de l'IA Générative
Kapoor prévoit que l'adoption de l'IA générative se produira plus rapidement que les révolutions technologiques précédentes, s'appuyant sur des infrastructures existantes telles que le web, le mobile et les technologies cloud. Il anticipe que des cas d'utilisation générateurs de revenus transformateurs émergeront l'année prochaine, y compris des fonctionnalités avancées de LLM permettant aux agents IA d'effectuer des tâches complexes. Des revenus matériels issus des intégrations d'IA générative pourraient apparaître dès le deuxième trimestre 2024, en particulier dans des secteurs comme le commerce de détail et le voyage.
Bien que Kapoor et Anuff aient souligné les atouts de Cassandra, ils ont reconnu que l'IA générative élèvera l'ensemble du secteur des bases de données. Les exigences des applications d'IA nécessitent des ressources de stockage et de calcul accrues, attirant l'attention des fournisseurs de cloud et de bases de données. « Si les applications d'IA deviennent une priorité, elles seront le principal moteur de croissance tant pour les entreprises de bases de données privées que publiques dans les cinq prochaines années », a déclaré Anuff.