OpenAI, la compañía estadounidense de inteligencia artificial (IA) ha presentado su nueva versión gratuita, más rápida y con capacidades mejoradas de su popular chatbot.
Se llama GPT-4o (“o” de “omni”) y estará disponible gratuitamente para todos los usuarios, aunque los suscriptores le podrán hacer más consultas.
GPT-4o integra en una sola herramienta funcionalidades de chatbots (como ChatGPT 3.5), asistentes de voz (como Siri o Alexa) y modelos de procesamiento de imágenes.

La nueva versión es más rápida que las anteriores, y fue programada para tener un tono más conversacional y cálido, e incluso a veces coqueto, en sus respuestas a los requerimientos de los usuarios.
Durante la demostración en vivo del lunes, la IA le dijo al presentador «me estás haciendo sonrojar» cuando le hizo un cumplido.
Sam Altman, fundador de OpenAI, escribió en un mensaje en la red social X tras el anuncio la palabra «her», en referencia a la película de 2013 Her («Ella»), en la que el protagonista se enamora del sistema operativo de su computador.

Según MIT Technology Review, GPT-4o tiene capacidades similares a su antecesor GPT-4, pero fusiona en un único modelo varios modelos que funcionaban por separado, «y eso se traduce en respuestas más rápidas y transiciones más fluidas entre tareas».
Estas son las novedades de la versión recién presentada:
1. Conversaciones fluidas y emotivas
Según OpenAI, su nueva tecnología es capaz de responder a peticiones de audio (es decir, preguntas u órdenes en voz alta de los usuarios) en un promedio de 320 milisegundos, un tiempo similar al que tarda un ser humano en responder en una conversación en inglés. Y los usuarios pueden interrumpir a la IA en cualquier momento.
También, «el modelo es capaz de generar voz en una variedad de estilos emotivos», como «dramático» o «sarcástico».
2. «Sé mis ojos»
En uno de los videos de demostración de la nueva tecnología, se ve a la IA describiendo en tiempo real para un usuario el comportamiento de unos patos en un pequeño lago o avisándole cuando viene un taxi.

GPT-4o es capaz de leer e interpretar imágenes a medida que van apareciendo en la cámara. Incluso puede identificar emociones en expresiones faciales.
Es una funcionalidad construida en colaboración con la aplicación danesa Be My Eyes y diseñada para asistir a personas con discapacidad visual.
3. Traducción en tiempo real
GPT4-o puede hacer de traductor en una conversación entre dos personas que no hablan el mismo idioma, aunque con errores.
También, usando su modelo de procesamiento de imágenes, la IA puede decirle al usuario cómo se llaman ciertos objetos que le muestre en la cámara en otro idioma.
4. Asistencia en reuniones
«En la reunión de hoy, Lilian y Christine expresaron su amor por los perros, subrayando su lealtad, compañía y lo geniales que son con los niños. Por otro lado, Ola prefiere los gatos por su independencia, tranquilidad y longevidad», resumió (en un video de OpenAI) con un acento estadounidense GPT-4o tras estar presente en una reunión virtual de 4 personas.
La nueva versión del modelo puede transcribir una reunión, tomar notas y resumir lo que pasó.
5. Ayuda con las matemáticas
GPT-4o es capaz de ayudar al usuario con sus tareas de matemáticas -por ejemplo, a resolver una ecuación- sin decirle la respuesta.
De acuerdo con las demostraciones de la compañía, un estudiante puede, por ejemplo, mostrarle a GPT-4o un problema de trigonometría que hay en su libro de texto, y la IA puede guiarlo para resolverlo, hacerle preguntas y corregirlo si comete errores en el proceso.
6. Generar imágenes
La nueva versión de ChatGPT incluye funcionalidades de herramientas de generación de imágenes como Dall-E (también de OpenAI).
Puede, por ejemplo, crear una imagen a partir de un comando en texto, puede convertir una foto en una caricatura o inventarse el póster de una película interpretando imágenes e ideas en texto que le dé el usuario.




































