OpenAI 发布能读懂文字并联网的 ChatGPT Images 2.0 图像生成器

首页

帮助中心

时间：2026-04-23

作者：小简

来源：简鹿视频格式转换器

简鹿视频格式转换器

官方正版

纯净安全

软件评分：

万能视频转换好吗？快来试试这款简鹿视频格式转换器是一款全方位视频转换工具，支持多种音视频格式之间的快速转换，满足您不同的视频编辑和播放需求。

Win下载

Mac下载

OpenAI 正式推出了 ChatGPT Images 2.0，这是其图像生成器的重大更新，搭载了gpt-image-2 模型。该模型已于 2026 年 4 月 21 日在 ChatGPT、Codex 及 API 平台上线。基础版本面向所有 ChatGPT用户（包括免费版）开放；而具备推理能力、网络搜索功能以及单次生成 8 张连贯图像的高级思考模式，则仅限 Plus、Pro、Business 及 Enterprise订阅用户使用。

文本渲染能力的实质性突破

在上一代模型中，生成带有文字的图像往往会暴露其“AI 身份”：文字扭曲变形，小字号文本变成无法辨认的乱码，尝试生成密集文本块时更是会出现一堆似是而非的字符。gpt-image-2 彻底打破了这一瓶颈：该模型能够精准处理小字号文本、图标、用户界面元素、复杂构图，并通过 API 支持高达 2K 的分辨率。

OpenAI 用一句宣言概括了这一成果：“图像是语言，而非装饰。”其实际效果立竿见影：对于大多数常规需求（如餐厅菜单、信息图设计、杂志封面或多格漫画），只需一个提示词即可生成成品，无需再在图形编辑软件中手动修改文字。

Images 2.0 在架构上的最大创新，是 OpenAI 产品线中首个专为图像生成设计的“思考”模式。在此模式下，模型会先分析用户提示词，接着通过网络搜索获取最新信息，构思整体构图，最后才开始绘制。这一机制带来的附加价值是完美解决了应用图形设计中最棘手的问题：分镜脚本、系列广告横幅、多页漫画或应用宣传截图集的生成。

“思考”模式是模型的高级运行方式，生成前会执行推理链并发起外部请求（尤其是网络搜索）。虽然等待时间有所增加，但复杂构图的质量显著提升。该模式仅在 ChatGPT 付费订阅中提供。

相比之下，基础版“即时”模式可快速生成单张图片，适用于所有订阅层级（含免费版）。Plus、Pro、Business 及 Enterprise 用户则可额外使用“思考”与 Pro 模式。Enterprise 客户将分阶段启用该功能。

多语言与非拉丁字符支持

OpenAI 特别强调了在非拉丁字符语言上的进步：日语、韩语、印地语和孟加拉语。官方列表中同样包含中文。这消除了以往的限制；过去，本地化设计（如包装、招牌、菜单、信息图）不得不手动制作，或为每种语言搭建独立流程。

模型的知识截止日期为 2025 年 12 月。对于涉及此后事件的查询，准确率会下降，此时“思考”模式会按需从网络补充数据。

格式与分辨率

Images 2.0 支持从 3:1（宽幅横幅、演示文稿）到 1:3（手机竖屏、书签、社交媒体快拍）的多种宽高比。API 最高支持 2K 分辨率。这覆盖了常见成品图形的标准格式，无需后期处理：横幅、幻灯片、海报、封面等。

API架构与定价

OpenAI 未公开 gpt-image-2 的具体架构类型。在新闻简报会上，公司代表未确认是否采用扩散模型、自回归模型或混合方案，仅以“图像的 GPT”一笔带过。这种保密态度与 TechCrunch 此前的分析形成对比：扩散模型因从噪声中重构图像，历史上在文本生成上表现不佳（字母所占像素极少，网络难以“学习填充”）；而自回归模型则像语言模型预测下一个词元一样分块构建图像，更有利于还原文本、界面等结构化元素。

扩散模型是一种图像生成器，从随机噪点开始逐步去噪以还原图像。自回归模型则像语言模型逐词生成文本一样，顺序构建图像，便于还原文本、界面等结构化元素。

OpenAI 平台页面公布的API官方定价如下：每百万图像输入令牌8美元，缓存输入 2 美元，输出 32 美元；文本输入 5 美元，缓存 1.25 美元，输出 10 美元。单张图片的具体成本取决于所选质量、分辨率及是否启用推理功能。

与 Nano Banana 2 的竞争

“思考”模式并非 OpenAI 的原创发明，而是对市场的回应。2025 年 11 月，Google DeepMind 推出了具备推理能力和真实知识生成功能的 Nano Banana Pro（Gemini 3 Pro Image）；2026 年 2 月，又发布了架构更快、质量相当、支持4K分辨率及图像内密集文本的 Nano Banana 2（Gemini 3.1 Flash Image）。Nano Banana Pro 同样支持多语言渲染，并可上传多达 14 张参考图以保持品牌风格。Images 2.0 在关键功能上已迎头赶上：推理能力、生成阶段网络搜索、角色连贯性及高质量文本生成。