OpenAI ha lanzado una actualización importante para ChatGPT, incorporando nuevas capacidades de voz e imagen que permiten al chatbot de IA ver, oír y hablar de manera efectiva. Esta mejora ofrece a los usuarios una “interfaz más intuitiva,” permitiéndoles interactuar con la plataforma de formas dinámicas y novedosas.
Con la nueva funcionalidad de imagen, los usuarios pueden cargar fotografías para obtener información o hacer preguntas sobre aspectos específicos de las imágenes. Por ejemplo, si deseas saber sobre la Torre Eiffel, simplemente toma una foto y úsala como referencia. ¿Tienes un problema de matemáticas? Captura una imagen de tu hoja de ejercicios, resalta la pregunta que te causa dificultad y deja que ChatGPT te ayude a resolverla.
Además de los comandos por imagen, ChatGPT ahora permite interacciones por voz. Los usuarios pueden pedir ideas de recetas o solicitar un cuento para dormir utilizando su voz. La IA no solo procesará la solicitud, sino que también responderá verbalmente, mejorando la experiencia del usuario.
Estas funciones de voz e imagen estarán disponibles para los usuarios de ChatGPT Plus y Enterprise en las próximas dos semanas. Las capacidades de voz son compatibles con dispositivos iOS y Android; sin embargo, los usuarios deben activarlas a través del menú de ‘configuración’. Las funciones de imagen serán accesibles en todas las plataformas.
OpenAI ha indicado que los desarrolladores tendrán acceso a estas capacidades de voz e imagen poco después de su lanzamiento, aunque aún no se ha confirmado una fecha específica.
Entendiendo la Interacción con Imágenes
La funcionalidad de imagen mejorada de ChatGPT aprovecha las versiones multimodales de sus modelos GPT-3.5 y GPT-4. Los usuarios pueden cargar una o varias imágenes junto con indicaciones de texto. Si desean enfocarse en un aspecto particular de la imagen, la interfaz móvil permite anotaciones fáciles utilizando una herramienta de dibujo.
Por ejemplo, un ciclista que necesite ayuda para ajustar el sillín de su bicicleta puede subir una imagen relevante y recibir instrucciones claras sobre cómo localizar el mecanismo de liberación rápida o el tornillo.
OpenAI enfatiza que las capacidades de visión de ChatGPT están diseñadas para ayudar con tareas prácticas cotidianas. “Funciona mejor cuando puede ver lo que tú ves,” explica la empresa.
Explorando la Interacción por Voz
La nueva función de voz transforma la manera en que los usuarios pueden interactuar con ChatGPT, permitiendo conversaciones atractivas y dinámicas. Esta capacidad supera la de asistentes de IA de grado consumidor como Siri, Alexa y Google Home. Un modelo de texto a voz recientemente desarrollado genera audio similar al humano a partir de simples instrucciones de texto, mientras que actores de voz profesionales han contribuido con su talento para producir una variedad de voces.
Además, OpenAI ha utilizado su modelo de reconocimiento de voz Whisper para transcribir con precisión el lenguaje hablado a texto. Los usuarios pueden personalizar su experiencia seleccionando su voz preferida entre cinco opciones disponibles en la pestaña de ‘nuevas funciones’ en sus configuraciones.
También se están llevando a cabo colaboraciones con el servicio de streaming Spotify para mejorar sus capacidades de chat por voz, habilitando traducciones automáticas para contenidos de podcast.
Garantizando Seguridad y Privacidad
OpenAI se compromete a mantener la seguridad de los usuarios con estas nuevas funciones. La organización ha implementado diversas medidas de protección, colaborando con terceros para identificar posibles riesgos y limitaciones. Además, se han establecido restricciones técnicas para minimizar el análisis de individuos en imágenes, garantizando transparencia sobre los límites del modelo.
Se han realizado pruebas exhaustivas para abordar diversas preocupaciones, incluido prevenir el uso indebido y mantener la privacidad. OpenAI reconoce los desafíos que ChatGPT puede enfrentar con lenguas no inglesas, especialmente aquellas que utilizan guiones no romanos, y aconseja prudencia a los hablantes no ingleses que usen la plataforma con esos fines.
A medida que se implementan estas funciones, los usuarios pueden anticipar una experiencia más rica e interactiva con ChatGPT, transformando la forma en que acceden a la información y se involucran con esta avanzada herramienta de IA.