OpenWebinars

Inteligencia Artificial

ChatGPT ahora genera imágenes: Descubre la nueva función de OpenAI

La nueva función de ChatGPT para generar imágenes permite transformar descripciones escritas en ilustraciones realistas, artísticas o conceptuales. Ideal para creativos, educadores o desarrolladores, esta herramienta abre un nuevo mundo de posibilidades visuales con solo escribir lo que tienes en mente.

Antonio Cáceres Flores

Antonio Cáceres Flores

Experto en IA y ML. Experiencia en Data Science, Desarrollo y Cloud.

Lectura 2 minutos

Publicado el 28 de marzo de 2025

Compartir

OpenAI ha dado un paso más hacia la inteligencia artificial multimodal al integrar una función de generación de imágenes directamente en ChatGPT.

Este nuevo avance permite a los usuarios crear imágenes detalladas y realistas a partir de descripciones textuales, marcando un hito en la evolución de sus modelos de lenguaje.

La generación visual deja de ser una función separada como en DALL·E, y se incorpora de forma nativa en la interfaz de ChatGPT gracias al nuevo modelo GPT-4o.

Esto supone una mejora clave en accesibilidad, rendimiento y coherencia entre lo que el usuario dice y lo que la IA genera.

Generación de imágenes en ChatGPT

La capacidad de generar imágenes desde texto no es nueva en el universo de OpenAI, pero su integración directa en ChatGPT sí lo es. Con el lanzamiento de GPT-4o, presentado oficialmente por OpenAI como el modelo más rápido y eficiente hasta la fecha, se abre la puerta a experiencias verdaderamente multimodales. Puedes consultar más detalles técnicos sobre el modelo en la página oficial de OpenAI.

GPT-4o no solo comprende texto; ahora también puede generar imágenes directamente en el flujo de conversación, sin necesidad de cambiar de herramienta. Esto permite mantener el contexto de la charla, añadir detalles sobre la marcha y obtener resultados más coherentes con las intenciones del usuario.

Características clave

Esta nueva herramienta visual destaca por:

  • Comprensión profunda del texto: GPT-4o analiza la descripción del usuario con precisión, detectando matices y elementos que antes se perdían o se malinterpretaban.
  • Generación fotorrealista: Las imágenes resultantes tienen un nivel de detalle mucho más alto que versiones anteriores de DALL·E, con colores, texturas y proporciones mejoradas.
  • Capacidad de edición: Es posible cargar una imagen y solicitar ajustes o inspirarse en ella para generar otras nuevas. Esto convierte a ChatGPT en una pequeña suite de edición creativa.
  • Interacción fluida: Al estar dentro del chat, el proceso de generar, modificar y comentar imágenes es más dinámico. Puedes pedir una imagen, luego ajustarla con otro mensaje y obtener una nueva versión en segundos.

Cómo funciona y cómo se accede

La función de generación de imágenes ya está activa para la mayoría de los usuarios con acceso al modelo GPT-4o dentro de ChatGPT. Basta con escribir una descripción en lenguaje natural, como “Un paisaje futurista con rascacielos flotantes al atardecer”, y el sistema devolverá una imagen generada en menos de un minuto.

Además, ahora se pueden usar indicaciones más específicas para afinar el resultado:

  • Incluir relaciones de aspecto.
  • Especificar colores o estilos artísticos.
  • Solicitar fondos transparentes o imágenes con elementos específicos.

Acceso a esta función

Actualmente, la generación de imágenes con GPT-4o está disponible para usuarios de los planes ChatGPT Plus, Team y Enterprise. Aunque inicialmente se había anunciado su disponibilidad también para usuarios gratuitos, OpenAI ha tenido que posponerlo debido a la alta demanda que ha superado las previsiones. La función llegará a los usuarios del plan gratuito una vez se resuelva el cuello de botella de acceso.

Además, se prevé su integración en ChatGPT Edu y en herramientas externas mediante la API de OpenAI.

Casos de uso en distintos sectores

La utilidad de esta herramienta va mucho más allá del entretenimiento o la curiosidad visual. Algunos ejemplos destacados incluyen:

  • Marketing y publicidad: Generación de contenido gráfico adaptado al público objetivo de una campaña sin depender de bancos de imágenes.
  • Comercio electrónico: Visualización de productos personalizables o aún en desarrollo para pruebas de concepto.
  • Educación: Ilustraciones didácticas sobre temas específicos, accesibles incluso sin conocimientos técnicos de diseño.
  • Periodismo y medios: Generación de recursos visuales para complementar artículos o contenido en redes sociales.
  • Diseño y creatividad: Bocetos preliminares y variantes visuales generadas al instante para apoyar procesos creativos.

Avances técnicos destacados

La nueva función viene con varias mejoras técnicas respecto a DALL·E:

  • Mejor integración de texto en imágenes: GPT-4o ahora es capaz de renderizar texto dentro de las imágenes con mayor precisión, superando uno de los grandes límites de modelos anteriores.
  • Reducción de errores en anatomía humana: Se ha mejorado la representación de manos, rostros y proporciones corporales, un reto recurrente en generación visual.
  • Mayor coherencia narrativa: Las imágenes generadas responden mejor al contexto general del chat, no solo al prompt individual.

Consideraciones éticas y limitaciones

Aunque las mejoras son evidentes, persisten varias limitaciones y desafíos éticos:

  • Sesgos en la generación: Se han detectado inconsistencias en cómo el modelo responde a prompts similares dependiendo del género. Por ejemplo, genera sin problema “hombres atractivos” pero rechaza “mujeres atractivas”, lo que ha abierto debates sobre filtros excesivos y posibles sesgos de entrenamiento.
  • Restricciones creativas: No se permite generar imágenes en el estilo de artistas vivos, como los de Studio Ghibli, para evitar conflictos de derechos de autor y proteger la propiedad intelectual.
  • Imprecisión en detalles pequeños: Dedos, ojos o letras pequeñas pueden resultar borrosos o inexactos en la imagen final.
  • Tiempo de generación: Aunque más rápido que versiones anteriores, puede tardar hasta un minuto en producir una imagen de alta calidad.
  • Recorte automático: Algunas imágenes pueden perder contenido relevante en los márgenes si el modelo aplica un recorte automático no deseado.

Transparencia y verificación

Todas las imágenes generadas incluyen metadatos C2PA que permiten verificar su origen como contenido de IA. Además, OpenAI ha desarrollado una herramienta interna para detectar si una imagen ha sido generada por su sistema, incluso si los metadatos han sido eliminados.

Estas medidas buscan reforzar la responsabilidad y trazabilidad en el uso de contenidos generados por IA, especialmente en un contexto donde la desinformación visual es una preocupación creciente.

¿Reemplaza esto a DALL·E?

Sí y no. Aunque DALL·E como modelo sigue existiendo, la experiencia de usuario ha sido absorbida por GPT-4o dentro de ChatGPT. Esto implica:

  • Mayor accesibilidad para usuarios sin conocimientos técnicos.
  • Mejores resultados por el uso del contexto conversacional.
  • Capacidades de edición visual sobre la marcha.

En resumen, DALL·E como marca queda en segundo plano, mientras que GPT-4o y ChatGPT se posicionan como la vía principal para la generación de imágenes.

Conclusiones

La integración del generador de imágenes en ChatGPT representa un paso firme hacia un modelo de IA verdaderamente multimodal. GPT-4o no solo responde preguntas o genera textos complejos, sino que ahora también crea contenido visual, ampliando exponencialmente las posibilidades para profesionales, creadores y usuarios generales.

Con mejoras en precisión, edición y experiencia conversacional, esta función eleva el nivel de lo que se espera de una IA generativa. Y aunque todavía quedan aspectos por pulir —desde sesgos hasta detalles técnicos—, OpenAI ha demostrado un fuerte compromiso por avanzar con transparencia y responsabilidad.

La IA ya no solo habla. Ahora también imagina.

Compartir este post

También te puede interesar

Icono de la tecnología
Curso

ChatGPT: Generación de Texto Conversacional

Principiante
47 min.

Formación diseñada para comprender el funcionamiento de ChatGPT, explorando sus principios básicos, aplicaciones empresariales, integración, personalización avanzada y...

Sara Díaz
4.3