OpenAI presentó oficialmente su nuevo modelo insignia de inteligencia artificial: Chat GPT-4o. Se trata de una herramienta inteligente capaz de razonar a través de audio, visión y texto en tiempo real, de acuerdo con el anuncio de este lunes 13 de mayo.
Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN
Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) May 13, 2024
¿Qué es y qué puede hacer Chat GPT-4o?
Chat GPT-4o puede responder a entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, que es similar al tiempo de respuesta humano (se abre en una nueva ventana) en una conversación.
Este nuevo modelo iguala el rendimiento de GPT-4 Turbo en texto en inglés y código, con una mejora significativa en texto en idiomas distintos del inglés.
Al mismo tiempo, es mucho más rápido y un 50 % más económico en la API. “GPT-4o es especialmente mejor en cuanto a visión y comprensión de audio en comparación con los modelos existentes”, señaló en un comunicado.
Según las mediciones de los puntos de referencia tradicionales, este nuevo modelo logra un rendimiento de nivel GPT-4 Turbo en texto, razonamiento e inteligencia de codificación, al tiempo que establece nuevos récords en capacidades multilingües, de audio y de visión.
¿Cuándo estará disponible el nuevo Chat GPT?
Las capacidades de GPT-4o se implementarán de forma iterativa (con acceso ampliado al equipo rojo a partir de hoy), de acuerdo con el comunicado oficial de OpenAI.
Los desarrolladores ahora también pueden acceder a GPT-4o en la API como modelo de texto y visión. Es dos veces más rápido, la mitad de precio y tiene límites de velocidad 5 veces más altos en comparación con GPT-4 Turbo.
OpenAI planea lanzar soporte para las nuevas capacidades de audio y video a un pequeño grupo de socios confiables en la API en las próximas semanas.
Los principales cambios a esta inteligencia artificial
La principal fuente de inteligencia, GPT-4, pierde mucha información: no puede observar directamente el tono, varios parlantes o ruidos de fondo, y no puede emitir risas, cantar ni expresar emociones.
Debido a que Chat GPT-4o es el primer modelo de OpenAI que combina todas estas modalidades, aún no se han explorado todas las posibilidades explotables con él.
Con información de AGENCIAS.