OpenAI presentó el 21 de abril de 2026 ChatGPT Images 2.0, un nuevo modelo para generar imágenes dentro de ChatGPT. La empresa afirma que mejora justo donde más tropiezan estos sistemas, el texto dentro de las imágenes y la capacidad de seguir instrucciones complejas.
¿Te imaginas pedir un cartel y que el título salga bien a la primera? En su anuncio, OpenAI defiende que quiere pasar de la “imagen bonita” a la imagen útil, con más coherencia visual, mejor tipografía y apoyo del razonamiento para ordenar una escena antes de generarla.
El problema de las letras
En muchos generadores, el texto suele salir torcido, con palabras inventadas o letras que parecen de otro alfabeto. Para un meme puede valer, pero para un menú, una diapositiva o un anuncio es lo que rompe el resultado. Y no es raro que obligue a retocar a mano o a repetir el prompt, el texto que escribes para pedir la imagen.
Parte del lío es que el modelo no “escribe” como un teclado. Intenta dibujar letras a base de píxeles y, cuando hay mucho texto o tamaños pequeños, se nota que le cuesta mantener formas consistentes. OpenAI dice que ChatGPT Images 2.0 mejora en este punto y que también rinde mejor con escritura multilingüe, algo clave si quieres materiales con más de un idioma.
Un modo que piensa antes de generar
En los planes de pago aparece “images with thinking”, un modo que no corre a entregar la imagen y se toma un momento para planificar. OpenAI lo describe como la opción de “planificar y perfeccionar” el resultado antes de generarlo, algo parecido a hacer un esquema antes de lanzarte a dibujar.
En la práctica, ese enfoque debería ayudar cuando pides escenas con muchos elementos que deben encajar, como una viñeta con globos de diálogo o una comparación visual con varias columnas. OpenAI también sugiere que este modo puede apoyarse en búsqueda y en material que subes al chat, para que la imagen no se base solo en memoria general, sino en información reciente o en tus propios documentos.
Más control para usos reales
El giro de OpenAI es tratar la generación de imágenes como una herramienta de trabajo dentro de ChatGPT, no como un truco suelto. En una guía para desarrolladores sobre gpt-image-2, la compañía habla de flujos “de producción” y pone ejemplos como infografías, materiales de marketing, páginas de cómic y diseño iterativo.
La guía está firmada por Mandeep Singh y Emre Okcular, del equipo de OpenAI, y su consejo es menos glamuroso y más útil, pide con precisión qué debe permanecer igual y qué puede cambiar. Eso incluye el texto exacto que debe aparecer, el estilo y la composición, y también el contexto visual que no quieres que se pierda. Al final del día, la promesa es menos ensayo y error.
Tamaño, formatos y límites prácticos
Para que una imagen sea usable, también importa el tamaño. OpenAI admite desde 512 píxeles por lado hasta 3840 en el lado más largo, con límites de píxeles totales para evitar archivos imposibles. Esa banda cubre desde prototipos rápidos hasta creatividades grandes para pantallas.
La misma guía recomienda no estirar el formato más allá de una proporción de tres a uno entre el lado largo y el corto, y avisa de que no hay salida con fondo transparente. También deja claro que hay límites, el control fino de la composición y la colocación exacta del texto todavía pueden fallar, y los tamaños por encima de lo que suele llamarse 2K, alrededor de dos mil píxeles por lado, se consideran más variables y experimentales.
Seguridad, API y una carrera que no se frena
Mejor realismo también significa más riesgo. En su system card, OpenAI reconoce que un modelo de imagen más potente puede facilitar deepfakes, falsificaciones muy realistas, y describe filtros en varias capas. También menciona señales de procedencia como metadatos C2PA, una especie de etiqueta digital, y una marca de agua imperceptible.
OpenAI también está empujando el modelo fuera del chat. En la documentación de Codex, su herramienta para trabajo con código, la empresa explica que la generación integrada usa gpt-image-2 y que, para lotes grandes, se puede usar la API, la interfaz para desarrolladores, con una clave propia.
Mientras tanto, la competencia sigue apretando. Midjourney presume de mejor seguimiento de instrucciones y de texto más fiable cuando lo pides entre comillas, Black Forest Labs presenta FLUX.2 como un modelo orientado a generación y edición, y Google ofrece en Gemini su familia de modelos de imagen conocida como Nano Banana.
El anuncio oficial se ha publicado en OpenAI.













