Lancement de la fonction de mise en cache contextuelle sur la plateforme Kimi Open pour le développement de l'IA
La plateforme Kimi Open a dévoilé sa nouvelle fonction de mise en cache contextuelle, désormais disponible pour des tests publics. Cette technologie innovante vise à réduire les coûts pour les développeurs jusqu'à 90 %, tout en améliorant considérablement les temps de réponse des modèles d'IA, marquant ainsi une avancée majeure en matière d'efficacité et de contrôle des coûts pour les services d'intelligence artificielle.
La mise en cache contextuelle est une technique de gestion des données de pointe qui stocke à l'avance les données fréquemment demandées afin de minimiser les calculs redondants sur la source de données originale. Lorsque les utilisateurs demandent à nouveau la même information, le système peut la récupérer rapidement depuis le cache, réduisant ainsi le temps de traitement et les dépenses. Cette technologie est particulièrement bénéfique pour les applications qui s'appuient sur des modèles de long texte et ont une forte fréquence de requêtes.
La plateforme Kimi Open souligne que la mise en cache contextuelle est applicable dans divers scénarios commerciaux, tels que :
- Les bots de questions-réponses (comme le Kimi API Assistant)
- Les outils de requête pour des ensembles de documents fixes (comme les systèmes de divulgation d'informations d'entreprise)
- L'analyse périodique de bibliothèques de code statiques
Elle est particulièrement adaptée aux applications d'IA à fort trafic, comme les simulateurs de conversation et les défis LLM. Après l'activation de la mise en cache contextuelle, les délais de traitement initiaux peuvent être réduits de 83 %, améliorant considérablement l'expérience utilisateur.
En matière de tarification, la plateforme Kimi Open propose une structure tarifaire flexible et transparente, incluant les coûts de création, de stockage et d'utilisation du cache. Les frais de création du cache sont facturés en fonction du nombre réel de tokens, à un tarif de 24 yuan par million de tokens. Le stockage du cache entraîne des frais basés sur la minute, de 10 yuan par million de tokens, tandis que la récupération du cache est facturée séparément, couvrant à la fois les frais de tokens supplémentaires (aux tarifs standards du modèle) et des frais d'utilisation de 0,02 yuan par appel.
La phase de test publique durera trois mois, avec des ajustements de prix possibles en fonction des retours des utilisateurs. L'accès prioritaire sera accordé aux utilisateurs de niveau 5, avec de plus amples détails à venir pour les autres utilisateurs.
Alors que la technologie de l'intelligence artificielle continue d'évoluer, la gestion efficace des coûts tout en maintenant la qualité du service est devenue une préoccupation centrale pour les développeurs et les entreprises. L'introduction de la fonction de mise en cache contextuelle par la plateforme Kimi Open offre une solution puissante à ce défi, promettant d'améliorer l'adoption et l'application des services d'IA.