昨天(3月5号)刚发布的,热乎的。给你捋一下核心要点:
-----
昨天(3月5号)刚发布的,热乎的。给你捋一下核心要点:
GPT-5.4 关键能力
推理 & 知识工作
• 在 GDPval(覆盖44个职业的专业任务测试)上,83% 的情况下匹敌或超越人类专业人士,GPT-5.2 才 70.9%
• 幻觉大幅降低:单条回复出错概率比 5.2 降了 18%,单个事实性声明出错降了 33%
• Excel 表格建模任务得分 87.3%(5.2 只有 68.4%),PPT 生成也被人类评审偏好
代码能力
• 融合了 GPT-5.3-Codex 的编码能力,SWE-Bench Pro 达到 57.7%
• Codex 里开 /fast 模式,token 输出速度快 1.5 倍,同模型同智力
• 前端任务效果肉眼可见的好,审美和功能都强
️ 原生 Computer Use
• 第一个自带电脑操控能力的通用模型
• OSWorld 成功率 75%,超过人类(72.4%),5.2 才 47.3%
• 能用 Playwright 写代码操作浏览器,也能通过截图+键鼠直接操作桌面
工具使用 & Agent 能力
• 支持 1M token 上下文
• 引入 Tool Search:不再把所有工具定义塞进 prompt,而是按需查找,省 token、降延迟
• 在 Toolathlon 和 BrowseComp 上都是 SOTA
视觉理解
• 支持 original 分辨率输入(最高 1024 万像素)
• MMMU-Pro 81.2%,文档解析错误率从 0.140 降到 0.109
效率
• 推理 token 消耗比 5.2 显著降低 = 更便宜更快
可用性: ChatGPT Plus/Team/Pro 用户已可选择 "GPT-5.4 Thinking",API 也同步上线。5.2 保留三个月到6月5号退役。
一句话总结:推理更强、代码更猛、能直接操控电脑、还更省 token。OpenAI 这次在 Agent 方向上押得很重,Computer Use 做到 75% 超人类水平这个数据确实猛。 
-----
-----