ChatGPT adquiere voz gracias a OpenAI: el chatbot que ahora puede hablar con los usuarios.
OpenAI ha presentado un modelo innovador de inteligencia artificial que transformará la interacción de los usuarios con ChatGPT. Ahora, el chatbot no solo responderá a través de texto, sino que también podrá hablar. Además, entenderá tanto contenido en video como en texto.
«La nueva actualización es significativamente más rápida y perfecciona las funcionalidades de texto, visión y audio», afirmó Mira Murati, CTO de OpenAI, durante la presentación. En este evento, la empresa demostró cómo funcionará la actualización, la cual estará disponible sin costo adicional para todos los usuarios.
ChatGPT ahora puede hablar
Una novedad destacada de GPT-4o es su «multimodalidad nativa». Este atributo permite que el modelo genere contenido o interprete comandos en formatos de voz, texto o imágenes. Esto amplía enormemente las formas en que los humanos pueden interactuar con la IA.
Antes de que se lanzara GPT-4o, circulaban rumores sobre los planes de OpenAI. Estos iban desde el desarrollo de un motor de búsqueda de IA para rivalizar con Google hasta la creación de un asistente de voz integrado en GPT-4, o incluso el desarrollo de un modelo totalmente nuevo, GPT-5.
No obstante, con la presentación de GPT-4o, OpenAI ha optado por centrarse en mejorar la experiencia del usuario. Las funcionalidades son similares a las de la versión anterior en cuanto a generación de contenido, pero ahora incluyen la posibilidad de hacerlo por medio de la voz.
Antes, la interacción con ChatGPT se basaba principalmente en texto. Con la incorporación de la voz, los usuarios pueden dialogar con el sistema de una manera más intuitiva y natural. GPT-4o tiene la capacidad de procesar y formular respuestas en tiempo real, captando incluso la emoción en la voz del usuario y adaptándola a diferentes estilos.
En cuanto a su disponibilidad, OpenAI ha asegurado que GPT-4o será gratuito para todos los usuarios de ChatGPT. Los usuarios que opten por la versión de pago tendrán límites de capacidad hasta cinco veces mayores que los de la versión gratuita.
La integración de la voz en ChatGPT no solo enriquece la experiencia del usuario, sino que también expande notablemente las funcionalidades de la plataforma. ChatGPT ahora es capaz de no solo responder a consultas de texto, sino también de comprender y generar respuestas a partir de comandos de voz, haciendo de esta herramienta una más versátil y potente.
Además de capacidades vocales, GPT-4o también amplía las funciones de ChatGPT en términos de visión. El sistema ahora puede examinar imágenes o capturas de pantalla y proporcionar datos relevantes o respuestas a consultas específicas.
Los desarrolladores también encontrarán ventajas en la disponibilidad de GPT-4o mediante la API de OpenAI. Esta API, que ofrece acceso al modelo a un precio reducido y con el doble de velocidad que el GPT-4 Turbo, facilitará a los desarrolladores la incorporación de capacidades de voz en sus propias aplicaciones y sistemas, abriendo nuevas posibilidades en el desarrollo de tecnología de IA.
Cómo utilizar ChatGPT con voz
OpenAI demostró varias formas en las que se puede aprovechar su nuevo modelo de lenguaje con voz, mostrando un amplio abanico de posibilidades. Los usuarios pueden desde hacer consultas simples hasta solicitar traducciones en tiempo real o análisis de códigos de programación. A continuación, algunos ejemplos:
Conversación informal: Ahora ChatGPT puede interactuar de manera más natural. No necesita convertir la voz del usuario en texto para luego responder en audio. Directamente responde con voz, adoptando un tono amigable, divertido y cercano. Esto lo hace ideal para conversaciones ligeras, preguntas cotidianas, búsquedas en internet y solicitudes de ayuda.
Traducciones: Durante la demostración, ChatGPT mostró su capacidad para traducir instantáneamente conversaciones entre inglés e italiano. Captura la voz en ambos idiomas y la traduce al instante, lo cual es extremadamente útil para viajes, reuniones y otros contextos multilingües.
Análisis de imágenes: El chatbot ahora puede acceder a la cámara del usuario, lo que permite mostrarle imágenes para que resuelva problemas matemáticos, identifique objetos o incluso juegue a piedra, papel o tijera.
Análisis de códigos y gráficos: ChatGPT puede procesar códigos de programación como en su versión anterior, pero ahora responde oralmente, haciendo la interacción más fluida. También puede analizar imágenes desde el computador para examinarlas y crear contenido.