分类分享下的文章

昨天（3月5号）刚发布的，热乎的。给你捋一下核心要点：

作者: admin
时间: 2026-03-06
分类: 分享
评论

-----

昨天（3月5号）刚发布的，热乎的。给你捋一下核心要点：

GPT-5.4 关键能力

 推理 & 知识工作

• 在 GDPval（覆盖44个职业的专业任务测试）上，83% 的情况下匹敌或超越人类专业人士，GPT-5.2 才 70.9%
• 幻觉大幅降低：单条回复出错概率比 5.2 降了 18%，单个事实性声明出错降了 33%
• Excel 表格建模任务得分 87.3%（5.2 只有 68.4%），PPT 生成也被人类评审偏好

 代码能力

• 融合了 GPT-5.3-Codex 的编码能力，SWE-Bench Pro 达到 57.7%
• Codex 里开 /fast 模式，token 输出速度快 1.5 倍，同模型同智力
• 前端任务效果肉眼可见的好，审美和功能都强

️ 原生 Computer Use

• 第一个自带电脑操控能力的通用模型
• OSWorld 成功率 75%，超过人类（72.4%），5.2 才 47.3%
• 能用 Playwright 写代码操作浏览器，也能通过截图+键鼠直接操作桌面

 工具使用 & Agent 能力

• 支持 1M token 上下文
• 引入 Tool Search：不再把所有工具定义塞进 prompt，而是按需查找，省 token、降延迟
• 在 Toolathlon 和 BrowseComp 上都是 SOTA

 视觉理解

• 支持 original 分辨率输入（最高 1024 万像素）
• MMMU-Pro 81.2%，文档解析错误率从 0.140 降到 0.109

 效率

• 推理 token 消耗比 5.2 显著降低 = 更便宜更快

可用性： ChatGPT Plus/Team/Pro 用户已可选择 "GPT-5.4 Thinking"，API 也同步上线。5.2 保留三个月到6月5号退役。



一句话总结：推理更强、代码更猛、能直接操控电脑、还更省 token。OpenAI 这次在 Agent 方向上押得很重，Computer Use 做到 75% 超人类水平这个数据确实猛。