一文读懂GPT-5.4 打个招呼80美元就烧完了

2026-03-06 | 来源: 腾讯科技 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

手捧GPT-5.4的奥特曼。图片由AI生成

文｜晓静

编辑｜徐青阳

北京时间3月6日凌晨，OpenAI正式发布新一代旗舰模型GPT-5.4，官方定位为"专为专业工作而设计的最强且最高效的前沿模型"。

比起“更强更快”的常规叙事，这次发布真正值得关注的是模型角色的转变：GPT-5.4是一个为Agent而生的模型。它首次将原生计算机操控能力融入通用模型，并同时整合了GPT-5.3-Codex级别的编程能力、百万Token上下文窗口和工具搜索机制——据官方介绍，没有为整合而牺牲任何单项能力。过去让AI操作电脑需要依赖专用的Computer Use Agent，现在编程、操控电脑、调用工具由同一个模型一并完成。

跑分印证了这一点：GDPval基准测试中，GPT-5.4在83%的任务上达到或超过行业专业人士水平；OSWorld桌面操控测试成功率75%，首次超过人类基线（72.4%）；编程能力与GPT-5.3-Codex持平，世界知识比GPT-5.2更强。

价格方面，GPT-5.4的API定价为输入$2.50/百万Token、输出$15，约为Claude Opus 4.6（$5/$25）的一半，且支持订阅额度调用。不过Pro版依然很贵——有网友仅发了一句"Hi"，GPT-5.4 Pro就认真推理了一番，直接烧掉80美元。日常轻量任务，标准版可能是更明智的选择。

"2013年前美元将变废纸?"华人圈疯传银行回应来了

一文看懂"圣战令":延续千年的教令动员机制

加元当美元花!Vegas喜迎加国游客

在ChatGPT中，GPT-5.4以“GPT-5.4 Thinking”形式上线，逐步取代GPT-5.2 Thinking（后者将保留3个月，于2026年6月5日正式退役）。新增的前置思路概述功能让用户可以在模型执行过程中随时介入调整方向，网页版和Android已上线，iOS即将跟进。

如果用一句话概括GPT-5.4的意义，过去几年大模型的进化逻辑是"哪块短板补哪块"，GPT-5.4不再单点拔高，而是把所有能力整合进同一个模型做系统性优化。一个能写代码的模型是工具，一个能写代码、打开浏览器查文档、调用API验证结果、再把输出整理成报告的模型，是工作系统。GPT-5.4更接近后者。

01 在83%的任务中达到或超过行业专业人士水平

GPT?5.4 与前代模型在多项专业能力基准测试中的表现对比

为了评估模型在真实工作环境中的表现，OpenAI使用GDPval基准测试，这项测试要求模型完成完整职业任务，而不仅仅是问答。GDPval覆盖美国GDP贡献最大的九个行业和四十四种职业场景，包括制作销售演示文稿、建立会计电子表格、安排医院急诊排班、绘制制造流程图或生成短视频内容。