跳到主要内容

ChatGPT Images 2.0 图像生成实测

内容

ChatGPT Images 2.0 的介绍、特点与实测。

OpenAI 在 2026年4月21日发布图像生成模型 ChatGPT Images 2.0,宣布图像生成新时代的来临。


介绍

ChatGPT Images 2.0 在上一代图像生成模型的基础上更进一步:能够处理复杂的视觉任务,并生成精准且可立即使用的视觉效果。

Images 2.0 是 OpenAI 首个具备思考能力的图像模型,扩展了模型处理复杂任务的能力。

在 ChatGPT 中选择思考模型后,Images 2.0 可以搜索网络获取实时信息,根据一个提示创建多个不同的图像,并对其输出进行双重检查。凭借思考能力,该模型可以承担更多从想法到图像的繁重工作,尤其是在准确性、信息时效性、一致性和视觉连贯性至关重要的情况下。

并且,从当天起,所有 ChatGPT、Codex 和 API 用户均可使用该模型。

在 ChatGPT 中选择“思考模式”后,模型会花费更多时间,并在后台进行更多自主操作,以彻底理解并执行任务。它可以利用网络查找相关信息,将上传的素材转化为清晰的视觉解释,并在生成图像前分析图像结构。在这种模式下,Images 2.0 更像是视觉思维伙伴,能够将项目从粗略的概念转化为最终的成品,无需投入太多人工精力。Codex 也接入了新模型,可以直接使用。


特点

ChatGPT Images 2.0 相对于其它图像生成模型在下面几方面有更好的表现:

极强的跨语言能力

不仅字母文字的精度更高,本次模型升级后,在非字母文字方面的表现也有显著进步,不仅能正常渲染出文字,还能将文字融入设计。

风格上的精致与现实主义

在各种视觉风格上都展现出了更高的保真度,在纹理、光照、构图和细节方面都能保持高一致性。

提供了更灵活的宽高比

能够生成符合您各种需求的输出格式,从宽幅横幅和演示幻灯片到海报、移动设备屏幕、书签和社交媒体图片,应有尽有。

现实世界智能 将更贴近时代的世界认知融入图像创作,其智能化功能使其能够出色地完成端到端的任务。

当然,官方也指出了模型当前的局限性,难以处理的场景有下面几个:

  • 需要完整且连贯的物理世界模型、折纸指南、魔方等谜题。
  • 需要在隐藏、倾斜或反转表面上正确显示的细节。
  • 非常密集或重复的视觉细节,例如细小的沙粒,也可能考验模型的极限。
  • 标签和图表的准确性仍需审核,尤其是在依赖精确箭头或部件标签的情况下。

模型实测

下面是在 chatGPT 中进行图像生成的 Artifacts。

Prompt
帮我生成一张APP图片,里面是用户餐食打卡和菜品推荐、营养知识等功能

UI图


Prompt 只有简单的一句话
但在思考模式下,模型补全了功能和交互细节(比如菜品标签、知识分类等),甚至还有APP的定位、slogon等
并且中文字符渲染完全没有问题。
画面精美,可以直接做为APP的宣传海报了。

总结

从对多语言的掌握、风格的一致性、写实水平和审美水平方面看, ChatGPT Images 2.0 在图像生成领域绝对达到 SOTA 水平。

ChatGPT Images 2.0 的出现,意味着AI生成图片可以直接进入营销、教育、设计与内容生产流程,也促使图像模型接下来会越来越像创意生产工具链的一环,而不是单独的生成入口。