ChatGPT dispose désormais de la vision, de l'audition et d'une voix : Découvrez l'expérience IA améliorée.

OpenAI a lancé une mise à jour majeure de ChatGPT, introduisant de nouvelles capacités vocales et d'image qui permettent au chatbot IA de voir, d'entendre et de parler efficacement. Cette amélioration offre aux utilisateurs une "interface plus intuitive", leur permettant d'interagir avec la plateforme de manière dynamique.

Avec la nouvelle fonctionnalité d’image intégrée, les utilisateurs peuvent télécharger des photos pour recueillir des informations ou poser des questions basées sur des éléments spécifiques des images. Par exemple, si vous souhaitez en savoir plus sur la Tour Eiffel, il vous suffit de prendre une photo et de l'utiliser comme incitation. Vous êtes coincé sur un problème de mathématiques ? Prenez une photo de votre feuille d'exercice, surlignez la question difficile et laissez ChatGPT vous aider à la résoudre.

En plus des incitations visuelles, ChatGPT permet désormais des interactions vocales. Les utilisateurs peuvent demander des idées de recettes ou un conte pour s'endormir en utilisant leur voix. L'IA non seulement traite la demande mais répond également par la voix, améliorant ainsi l'expérience utilisateur.

Ces fonctionnalités vocales et d'image seront disponibles pour les utilisateurs de ChatGPT Plus et Enterprise au cours des deux prochaines semaines. Les capacités vocales sont compatibles avec les appareils iOS et Android ; cependant, les utilisateurs doivent s'inscrire via le menu « paramètres ». Les fonctionnalités d'image seront accessibles sur toutes les plateformes.

OpenAI a indiqué que les développeurs auront bientôt accès à ces capacités vocales et d'image après leur lancement, bien que le calendrier exact n'ait pas encore été confirmé.

Comprendre l'interaction par image

La fonctionnalité d’image améliorée de ChatGPT s’appuie sur des versions multimodales de ses modèles GPT-3.5 et GPT-4. Les utilisateurs peuvent télécharger une ou plusieurs images en conjonction avec des incitations textuelles. S'ils souhaitent se concentrer sur un aspect particulier de l'image, l'interface mobile permet une annotation facile à l'aide d'un outil de dessin. Par exemple, un cycliste ayant besoin d'aide pour ajuster la selle de son vélo peut télécharger une image pertinente et recevoir des instructions claires pour localiser le levier ou le boulon de déblocage rapide.

OpenAI souligne que les capacités visuelles de ChatGPT sont conçues pour aider à des tâches pratiques quotidiennes. « Cela fonctionne mieux lorsqu'il peut voir ce que vous voyez », explique l'entreprise.

Explorer l'interaction vocale

La nouvelle fonctionnalité vocale transforme la manière dont les utilisateurs peuvent interagir avec ChatGPT, permettant des conversations engageantes et dynamiques. Cette capacité surpasse celle des assistants IA grand public standards comme Siri, Alexa et Google Home. Un modèle de synthèse vocale récemment développé génère un audio ressemblant à la voix humaine à partir de simples incitations textuelles, tandis que des acteurs professionnels ont prêté leur voix pour produire une gamme de sonorités.

De plus, OpenAI a utilisé son modèle de reconnaissance vocale Whisper pour transcrire avec précision la langue parlée en texte. Les utilisateurs peuvent personnaliser leur expérience en choisissant leur voix préférée parmi cinq options disponibles via l’onglet « nouvelles fonctionnalités » dans leurs paramètres.

Des collaborations sont également en cours avec le service de streaming Spotify pour améliorer les capacités de chat vocal, permettant des traductions automatiques pour le contenu des podcasts.

Assurer la sécurité et la confidentialité

OpenAI s'engage à maintenir la sécurité des utilisateurs avec ces nouvelles fonctionnalités. L'organisation a mis en œuvre divers garde-fous, collaborant avec des tiers pour identifier les risques et limitations potentiels. De plus, des restrictions techniques ont été établies pour minimiser l'analyse des individus dans les images, garantissant la transparence sur les limites du modèle.

Des tests approfondis ont été réalisés pour répondre à diverses préoccupations, notamment la prévention des abus et le maintien de la confidentialité. OpenAI reconnaît les défis que ChatGPT peut rencontrer avec les langues autres que l'anglais, en particulier celles utilisant des scripts non romains, conseillant une prudence aux utilisateurs non anglophones de la plateforme.

Avec le déploiement de ces fonctionnalités, les utilisateurs peuvent s'attendre à une expérience plus riche et interactive avec ChatGPT, transformant ainsi leur manière d'accéder à l'information et d'interagir avec cet outil IA avancé.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles