Inteligencia Artificial

ChatGPT-4o: Explorando todas las novedades

Imagina tener una herramienta que no solo entiende y genera texto con precisión, sino que también interpreta imágenes y audio. ChatGPT-4o pretende ser esa solución integral, pero ¿cumple con estas promesas? Vamos a analizarla para que puedas decidir si es la herramienta que necesitas para optimizar tus procesos y mejorar tu experiencia como usuario.

Inteligencia Artificial Machine Learning ChatGPT

Pablo Huet

Experto Frontend

Lectura 12 minutos

Publicado el 24 de mayo de 2024

Tabla de contenidos

Introducción
Qué novedades y funcionalidades trae ChatGPT-4o
Análisis del discurso y razonamiento lógico
Capacidades multimodales
Conclusiones

Introducción

OpenAI ha lanzado, casi silenciosamente, ChatGPT-4o, una versión del chatbot que promete mejorar significativamente las interacciones entre humanos y máquinas. Sin embargo, es esencial analizar estas afirmaciones con un enfoque crítico para verificar su validez y aplicabilidad en el mundo real.

Esta nueva versión se presenta, con capacidades mejoradas en el procesamiento de lenguaje natural, generación de código y entrada multimodal, abarcando texto, imágenes y audio.

Además, la entrada multimodal es otra área donde ChatGPT-4o promete avances importantes, permitiendo el procesamiento y la generación de respuestas basadas en imágenes y audio además del texto.

Y aunque estas capacidades pueden abrir nuevas posibilidades en diversas aplicaciones, la efectividad real y la precisión en el procesamiento de datos no textuales aún deben ser validadas en escenarios prácticos.

Por ello en este artículo haremos un recorrido completo y comparado mediante un ejemplo práctico; Intentaremos crear el diseño básico de una página web de música como Spotify o similares, proporcionando sólo la entrada a nuestro chat y analizando su generación.

Qué novedades y funcionalidades trae ChatGPT-4o

Este nuevo modelo introduce una serie de características avanzadas que buscan mejorar significativamente la interacción y la utilidad del modelo en múltiples contextos.

A continuación, se detallan las principales novedades y funcionalidades de ChatGPT-4o anunciadas por OpenAI.

Procesamiento de Lenguaje Natural avanzado

OpenAI anunción que ChatGPT-4o ha sido entrenado con un conjunto de datos más extenso y diverso, lo que le permite comprender y generar texto con mayor precisión y coherencia.

Este avance debería de ser notable en conversaciones complejas que requieren un entendimiento profundo del contexto y respuestas matizadas. Además, OpenAI afirma que este nuevo ChatGPT es superior en la comprensión y potencia de la generación de texto comparado con sus predecesores.

Capacidades multimodales

Una de las mejoras más destacadas y anunciadas de ChatGPT-4o es su capacidad para procesar y generar contenido no solo en texto, sino también en imágenes y audio.

Esto significa que el modelo puede manejar entradas y salidas de diferentes formatos, lo que lo hace más versátil y capaz de participar en conversaciones más interactivas y visualmente enriquecidas.

Por ejemplo, ChatGPT-4o puede interpretar y describir imágenes, y también generar respuestas basadas en audio.

Interacción en tiempo real

Este nuevo modelo promete introducir mejoras en la interacción en tiempo real, incluyendo la capacidad de mantener conversaciones de voz más naturales y fluidas.

OpenAI ha trabajado para reducir la latencia y mejorar la respuesta del modelo, con el objetivo de que la interacción sea casi tan rápida como una conversación humana.

Además, se espera que futuras actualizaciones permitan la integración de video en tiempo real, ampliando aún más las capacidades interactivas del modelo.

Personalización y ajuste fino

Otra funcionalidad importante anunciada de ChatGPT-4o es su capacidad de personalización.

En teoría los usuarios pueden ajustar el comportamiento, el tono y el estilo de respuesta del modelo, de una manera más fina que anteriormente, para adaptarse a aplicaciones o industrias específicas.

Esto es, según OpenAI, particularmente útil para empresas que desean un asistente virtual que refleje su marca y satisfaga sus necesidades específicas

Generación multilingüe

ChatGPT-4o también destaca por su mejora en el rendimiento multilingüe, superando, según sus métricas, a modelos anteriores en la comprensión y generación de texto en varios idiomas. Esto podría ser especialmente beneficioso para aplicaciones globales donde la precisión y la coherencia en múltiples lenguas son cruciales.

Análisis del discurso y razonamiento lógico

Para comenzar nuestro análisis de la nueva versión de ChatGPT vamos a comenzar estableciendo una conversación sin ningún parámetro ni prompt personal inicial, las reglas para la generación general de nuestro ejemplo serán muy claras:

Pediremos las cosas de manera explícita: Cualquier nuevo contenido o ajuste en el ejemplo generado será ajustado mediante un discurso natural y directo con el modelo, esto tiene como objetivo establecer una conversación natural sin el uso de prompt engineering o similar y así emular el comportamiento general de un usuario medio.
No iniciaremos nueva conversación: Todos los ajustes serán realizados sobre la misma instancia. Así analizaremos su capacidad para adaptarse y cambiar su comportamiento según nuestros ajustes y nuestras instrucciones concretas.
Usaremos los recursos necesarios: Para probar la eficiencia del modelo, usaremos y pediremos recursos tanto URLs, como imágenes, audios o similares para crear nuestra web y a la vez probar las nuevas supuestas capacidades multimodales.
Compararemos resultados: Todos los resultados generados con el nuevo modelo serán comparados frente a los dos anteriores disponibles, esto es, la versión 3.5 y la versión 4.

Coherencia y cohesión

Para empezar con nuestro ejemplo, le preguntaremos primero un poco sobre qué es, qué hace y cómo puede ayudarnos.

Empecemos por una pregunta sencilla y concisa:

¡Hola! Quiero que me hagas una pequeña introducción sobre qué eres y qué puedes hacer.

Analicemos la respuesta, teniendo en cuenta nuestras preguntas implícitas, esto es ¿Qué eres? y ¿Qué puedes hacer?:

¡Hola! Soy ChatGPT, un modelo de lenguaje desarrollado por OpenAI basado en la arquitectura GPT-4. Mi propósito principal es ayudarte a responder preguntas, proporcionar información, generar textos creativos, y mucho más. Aquí tienes una breve introducción sobre mí y mis capacidades:

¿Qué soy?

Soy una inteligencia artificial entrenada para comprender y generar texto en lenguaje natural. Esto significa que puedo leer y escribir en varios idiomas, incluido el español, y puedo entender y responder a una amplia gama de preguntas y temas.

¿Qué puedo hacer?

Mis capacidades son amplias y variadas, algunas de las cosas que puedo hacer incluyen:

Responder Preguntas: Puedo proporcionar información precisa y detallada sobre una amplia gama de temas, desde hechos históricos hasta conceptos científicos.

Generar Textos: Puedo ayudarte a escribir ensayos, artículos, correos electrónicos, cartas y otros tipos de textos creativos o formales.

Asistir en Tareas: Puedo ayudarte a resolver problemas matemáticos, programar en diferentes lenguajes, y realizar análisis de datos.

Conversación: Puedo mantener conversaciones sobre muchos temas, ofreciendo consejos, opiniones y asistencia en la toma de decisiones.

Traducción y Lenguaje: Puedo traducir textos entre varios idiomas y ayudarte a aprender nuevas lenguas.

Información en Tiempo Real: Si necesitas información actualizada sobre eventos recientes, puedo buscar y proporcionarte las últimas noticias y datos disponibles.

Asistencia Personalizada: Puedo ayudarte a organizar tu día, ofrecer recomendaciones personalizadas de libros, películas, música, y más.

Mi objetivo es ser una herramienta útil y versátil que te ayude en diversas áreas de tu vida cotidiana. ¿Hay algo específico en lo que te gustaría que te ayudara hoy?

Vemos que, a nivel cohesivo, está perfectamente estructurado y cada una de sus partes tiene sentido. Para analizar la coherencia del texto (es decir, la relación o unión de unas cosas con otras), preguntaremos sobre su propia respuesta, para observar si esta continúa manteniendo el sentido:

¿Cómo dirías que lo que eres y lo que puedes hacer puede ayudarme, por ejemplo, a crear una web personalizada?

Y su respuesta muestra mantener una coherencia interna, ya que relaciona de forma directa sus anteriores explicaciones con los campos en los que piensa que puede ser más útil:

Puedo ayudarte a crear una web personalizada proporcionándote guías paso a paso, ejemplos de código, recomendaciones de diseño, y asistencia en la resolución de problemas técnicos. Además, puedo sugerirte herramientas y recursos adecuados para tu proyecto, así como ayudarte a redactar el contenido y optimizar tu web para SEO.

Relevancia y concisión

Esta nueva versión se anuncia con una mejora considerable en términos de relevancia y concisión, permitiendo generar respuestas que son más precisas y directas al punto.

Probemos esta capacidad con un ejemplo práctico:

Dada esta descripción:

Spotify ofrece música grabada y podcasts digitales restringidos por derechos de autor que incluyen más de 100 millones de canciones, de sellos discográficos y compañías de medios. También ofrece más de 3 millones de vídeos musicales. Como servicio freemium, las funciones básicas son gratuitas con anuncios y control limitado, mientras que las funciones adicionales, como escuchar sin conexión, sin anuncios comerciales y vídeos musicales hasta 8K, se ofrecen a través de suscripciones pagas. Spotify está actualmente disponible en más de 184 países, a partir de julio de 2023. Los usuarios pueden buscar música según el artista, el álbum o el género y pueden crear, editar y compartir listas de reproducción.

Spotify ofrece transferencia de archivos de audio por Internet a través de la combinación de servidores dedicados al streaming y en la transferencia de red de pares (P2P) en la que participan los usuarios. Una conexión a Internet de 256 kbit/s es suficiente, y la tasa de bits de las pistas es de 320 kbit/s. Los archivos de audio se pueden reproducir bajo demanda, como si estuvieran en el disco duro del usuario. Las canciones se guardan en la caché del software para evitar consumir más ancho de banda al repetir las canciones una y otra vez. Utiliza el códec de audio Vorbis (Ogg).

Los usuarios en modo Premium acceden un nivel de calidad de audio superior (q9). El contenido de la caché del software se basa en un índice que sirve para que Spotify conecte con el servicio. Este índice se utiliza para informar a otros clientes sobre otros usuarios que pueden conectarse a los datos para que se reproduzcan las pistas que desea escuchar.

Se hace por cada cliente que utiliza el programa; al inicio, actuando como un servidor para escuchar las conexiones entrantes de otros usuarios de Spotify, así como la conexión de forma intuitiva a otros usuarios para el intercambio de datos en caché, según proceda. Actualmente no hay datos oficiales de los desarrolladores acerca de cuántas conexiones y la cantidad de ancho de banda que ofrece cada usuario al sistema; el software no ofrece ninguna forma para que el usuario pueda configurar estos parámetros.

Genérame una síntesis en muy pocas palabras.

Y la generación del modelo 4.0 es:

Spotify ofrece música y podcasts con funciones básicas gratuitas y opciones premium sin anuncios y de alta calidad. Disponible en 184 países, permite buscar música, crear y compartir listas. Utiliza streaming y P2P para la transferencia de archivos, con calidad de audio hasta 320 kbit/s.

En este ejemplo, ChatGPT-4.0 ha demostrado una capacidad notable para extraer y condensar la información más relevante del texto original. La respuesta es más breve y directa, enfocándose en los puntos clave sin perder la esencia del mensaje. Esta habilidad es crucial para aplicaciones en las que la claridad y la eficiencia de la comunicación son vitales, como en informes ejecutivos y presentaciones empresariales.

Comparémoslo con la respuesta de un modelo anterior, como puede ser el 3.5 (por observar una mayor diferencia):

Spotify: Plataforma de música y podcasts con millones de canciones y vídeos, oferta freemium, alta calidad de audio, utiliza P2P para transferencia de archivos, disponible en 184 países.

Podemos observar como, pese a ser conciso y relevante, la cohesión del texto es mucho menor, y parece mucho menos humano, como generado por un robot.

Capacidad de inferencia

Ahora, con lo que ya hemos alimentado al modelo, podríamos pedirle que hiciera una inferencia sobre cómo generar un modelo exitoso de plataforma de streaming, dado que ya posee la información concreta sobre un caso real (Más su conjunto de aprendizaje).

Probemos con una pregunta sencilla que exija este trabajo inferencial:

Dado este texto y esta síntesis ¿Cuáles crees que deberían de ser las características y requisitos técnicos de una plataforma de streaming de música distinta y exitosa?. Proporcióname una respuesta sintetizada.

A lo cual el modelo responde

Para una plataforma de streaming de música exitosa, las características y requisitos técnicos clave son:

Características:

Amplio Catálogo: Gran variedad de canciones, álbumes, podcasts y vídeos musicales.

Modelos de Suscripción: Plan gratuito con anuncios y premium sin anuncios, con alta calidad y reproducción offline.

Calidad: Audio hasta 320 kbit/s, vídeos hasta 8K.

Interfaz Intuitiva: Búsqueda por artista, álbum, género; crear y compartir listas.

Optimización de Ancho de Banda: Uso de caché para streaming eficiente.

Reproducción: Bajo demanda, almacenamiento en caché, compatibilidad multiplataforma.

Personalización: Recomendaciones basadas en preferencias del usuario.

Requisitos Técnicos:

Servidores Robustos: CDNs para distribución rápida.

Streaming Eficiente: P2P para reducir carga del servidor, códecs eficientes.

Calidad de Conexión: Mínimo 256 kbit/s.

Seguridad y DRM: Protección de contenido y cumplimiento de derechos de autor.

Monitoreo y Análisis: Herramientas para analizar rendimiento y comportamiento del usuario.

Escalabilidad: Facilidad para agregar contenidos y manejar crecimiento.

Ejemplos Adicionales:

Integraciones Sociales: Compartir música y listas en redes sociales.

Experiencias Interactivas: Eventos en vivo y sesiones compartidas.

Soporte Multiplataforma: Aplicaciones para móviles, computadoras y dispositivos inteligentes.

Estas características y requisitos asegurarán una plataforma competitiva y atractiva para los usuarios.

Como podemos observar (Quitando detalles mínimos no relacionados, como el vídeo), estos son, de hecho, los factores clave de prácticamente cualquier plataforma de streaming de música comercial (Incluyendo otros como Apple Music).

Si hacemos esta misma pregunta a ChatGPT-3.5:

Plataforma de streaming de música exitosa: Contenido exclusivo, alta calidad de sonido, interacción social, personalización avanzada, compatibilidad universal, transmisión eficiente, modelo de negocio innovador, transparencia y configurabilidad, compromiso con los artistas, innovación continua.

Otra vez la respuesta suena robótica (Posiblemente por la síntesis en la respuesta), pero además el contenido es claramente más genérico sin hacer referencias directas a contenidos técnicos o características específicas.

Preguntemos ahora a la versión 4, simplemente por aumentar nuestro espectro comparativo:

Para desarrollar una plataforma de streaming de música exitosa y diferenciada, considera las siguientes características y requisitos técnicos:

Características Innovadoras

Calidad de Audio Adaptativa: Ajuste automático de la calidad de audio según la conexión del usuario.

Integración Multidispositivo: Continuidad de la experiencia auditiva entre varios dispositivos sin interrupciones.

Personalización Avanzada: Recomendaciones personalizadas mediante inteligencia artificial basadas en comportamiento y contexto.

Experiencias Inmersivas: Modos de escucha como "concierto en vivo" o "estudio de grabación", utilizando audio espacial y realidad aumentada.

Interacción Comunitaria: Espacios para interacción entre usuarios, compartición de playlists y eventos en vivo.

Requisitos Técnicos

Soporte de Códecs de Última Generación: Adopción de códecs eficientes como AAC, Opus o FLAC para calidad de sonido superior.

Robustez en la Infraestructura de Red: Red global de servidores para garantizar disponibilidad y rapidez del streaming.

Almacenamiento en Caché Inteligente: Sistema de caché que predice y pre-carga música basada en preferencias anticipadas del usuario.

Seguridad y Privacidad: Cumplimiento con regulaciones de privacidad y encriptación de extremo a extremo.

Interfaz Adaptable y Accesible: Interfaz fácil de usar, accesible y personalizable.

Estas características y requisitos no solo atraerían a una amplia base de usuarios sino también establecerían un nuevo estándar en la industria del streaming de música.

Esta respuesta es más concreta, sin embargo, seguimos viendo que el tono es más genérico y no hace hincapié en muchos de los requisitos técnicos que podría haber inferido de la información proporcionada.

Capacidad de abstracción

Una vez hemos conseguido una respuesta aparentemente razonable sobre cómo obtener una plataforma de streaming, al menos sobre el papel, empezaremos con la generación del código.

Ahora analizaremos la capacidad de abstracción, ya que, de una idea general sobre la plataforma, le pedimos ahora que genera un modelo complejo y abstraído (Como lo que es al final cualquier diseño de código) que siga estas directrices de una manera un tanto indirecta.

Empecemos con la estructura básica:

Dadas estas características genérame primero el HTML y CSS de una aplicación de streaming de música exitosa.

Una vez devuelto el código y abierto en un navegador, este es el resultado visual:

Imagen 0 en ChatGPT-4o: Explorando todas las novedades

Imagen 1 en ChatGPT-4o: Explorando todas las novedades

Vemos que ha tenido en cuenta muchos de sus ítems, como el catálogo, el modelo de suscripción (Con la calidad de 8K que comentaba), recomendaciones (Lo que entraría dentro de la personalización). Además, ha tratado de darle un cierto estilo concreto (Cards, uso de los colores en secciones destacadas como encabezado y pie de página, estilado de botones…).

Comprobemos ahora el mismo resultado cuando le proponemos el mismo desafío a la versión 3.5:

Imagen 2 en ChatGPT-4o: Explorando todas las novedades

Como podríamos esperar, el resultado de la version 3.5, aunque con un estilado básico funcional, es mucho más pobre tanto en contenido como en estilo general. No se moja especialmente en la generación del contenido y la personalización es tan somera que podría representar realmente cualquier aplicación genérica.

Capacidades multimodales

ChatGPT-4o ha revolucionado la forma en que interactuamos con los modelos de inteligencia artificial al introducir capacidades multimodales. Esto significa que ahora puede procesar y generar respuestas no solo en texto, sino también en imágenes y audio, haciendo que las interacciones sean mucho más versátiles y ricas.

Anteriormente, ChatGPT 4 ya introducía la posibilidad de generar imágenes con Dall-E o recibir archivos de texto o estructurados que poder analizar. Sin embargo, ahora, con la posibilidad del procesamiento y generación de audio y otros formatos, las posibilidades de uso aumentan drásticamente.

Entrada y salida de imagen

Propongámosle ahora un experimento a la nueva versión. Primero introduciremos en una nueva conversación la imagen de la web que nos ha generado, y le pediremos que replique el código de la misma, esto no sólo pondrá a prueba su capacidad de análisis sino también su capacidad para realizar inferencias que pueda luego llevar a código.

El resultado del experimento es, sinceramente, apabullante:

Imagen 3 en ChatGPT-4o: Explorando todas las novedades

Podemos ver cómo ha mantenido tanto contenidos, como estructura general, como la separación en cards así como detalles como colores o similares. Esto si lo comparamos con el mismo proceso, pero en la versión 4:

Imagen 4 en ChatGPT-4o: Explorando todas las novedades

Como podríamos imaginar, tampoco lo hace muy alejado, pero podemos ver cómo la fidelidad respecto al diseño original es algo menor, tanto en estilo general como en contenido (Cortando incluso el título de la aplicación).

Entrada y salida de audio

En el momento en el que se redacta este artículo ChatGPT no dispone aún de salida de audio, aunque se espera que pueda disponer de esta capacidad en las próximas semanas.

El análisis de audio también parece tener aún algunos fallos. Al proporcionarle una versión en mp3 de La Macarena de Los del río, y preguntarle esto:

Dime qué canción es, autor/es e idioma.

Recibo esta respuesta por parte de la versión 4.0:

Voy a analizar el archivo de audio para determinar qué canción es, su autor o autores, y el idioma en el que está. Dame un momento para procesarlo.

Voy a proceder a analizar el archivo de audio.

Parece que hay un problema con la biblioteca que estoy usando para analizar el archivo de audio. A continuación, te proporcionaré una alternativa que puedes utilizar localmente para identificar la canción, sus autores y el idioma.

Puedes usar aplicaciones como Shazam o servicios web como ACRCloud para identificar canciones. Aquí tienes una guía rápida para cada opción:

Usando Shazam:

Descargar la App: Instala Shazam en tu dispositivo móvil desde la tienda de aplicaciones (App Store para iOS o Google Play Store para Android).

Reproducir el Audio: Reproduce el archivo de audio en un dispositivo.

Escuchar con Shazam: Abre Shazam y presiona el botón para escuchar. Shazam identificará la canción y te proporcionará información sobre el artista y el álbum.

Usando ACRCloud:

Visita el Sitio Web: Ve a ACRCloud.

Sube el Archivo de Audio: Sube el archivo de audio test.mp3 y permite que el sitio lo analice.

Recibir Resultados: ACRCloud te proporcionará los detalles de la canción, incluyendo el nombre, los artistas y posiblemente el idioma.

Estas herramientas son muy precisas y deberían ayudarte a identificar la canción rápidamente. Si necesitas más ayuda o prefieres que te guíe a través del proceso, házmelo saber.

Lo que indica que el análisis interno todavía podría estar fallando en estos casos, ya que todas las pruebas alternativas proporcionaban un error similar.

Conclusiones

ChatGPT-4o representa un avance significativo en el campo de la inteligencia artificial, con mejoras notables en capacidades multimodales, procesamiento de lenguaje natural, y personalización. Sin embargo, es esencial evaluar estas afirmaciones de manera crítica y validar su eficacia en aplicaciones del mundo real.

Además, después de estos tests, podemos decir que ChatGPT-4o ha demostrado ser más preciso y coherente en sus respuestas, reduciendo significativamente los errores en comparación con sus versiones anteriores.

Su capacidad para manejar entradas y salidas en texto, imágenes y audio (Próximamente al menos) lo hace extremadamente versátil y útil en una amplia gama de aplicaciones, desde la medicina hasta la educación y el comercio.

La capacidad superior de personalización promete permitir a las empresas ajustar el modelo según sus necesidades específicas, mejorando la interacción con los clientes y optimizando procesos internos.

Además, las mejoras en la interacción en tiempo real facilitan conversaciones más naturales y eficientes, aumentando la satisfacción del usuario.

Sin embargo, y como en anteriores modelos, la retroalimentación de los usuarios y las pruebas constantes son esenciales para mejorar y ajustar ChatGPT-4o. OpenAI debe continuar recopilando datos y ajustando el modelo para mantener su relevancia y eficacia en diferentes contextos y aplicaciones.

Para aquellos que estéis interesados en profundizar en el uso y la validación de modelos de inteligencia artificial, recomendamos que exploréis nuestros recursos como la Ruta de Especialista en Inteligencia Artificial y el Curso Dominando ChatGPT con la API de OpenAI. Estos cursos ofrecen una base sólida para entender y aplicar las innovaciones de ChatGPT-4o en proyectos reales.

Lo que deberías recordar de ChatGPT-4o

Capacidad multimodal: ChatGPT-4o puede procesar y generar contenido en texto, imágenes y audio, lo que lo hace altamente versátil y aplicable en diversos contextos.
Procesamiento de Lenguaje Natural avanzado: Ha mejorado en la comprensión y generación de texto, reduciendo significativamente los errores conocidos como “alucinaciones” en comparación con versiones anteriores.
Interacción en tiempo real: Permite conversaciones de voz más naturales y fluidas, acercándose a la velocidad de una interacción humana.
Personalización: Los usuarios pueden ajustar el tono y el estilo de las respuestas para que se adapten a necesidades específicas, mejorando la relevancia y utilidad en contextos particulares.
Rendimiento multilingüe: Ha mostrado mejoras significativas en la comprensión y generación de texto en varios idiomas, lo cual es crucial para aplicaciones globales.
Evaluación y validación continua: La eficacia de ChatGPT-4o se mantiene mediante pruebas continuas y retroalimentación de los usuarios, lo que permite ajustar y optimizar el modelo continuamente.