最新顶级模型GPT-5.2已上线24小时:差评如潮!

2025-12-13 | 来源: 机器之心 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

X 上充斥着对 GPT-5.2 的恶评。

昨天，OpenAI 十周年之际，拿出了最新的顶级模型 GPT-5.2 系列，官方号称是「迄今为止在专业知识工作上最强大的模型系列」，在众多基准测试中，GPT-5.2 也都刷新了最新的 SOTA 水平。

但是一夜之间口碑反转，大批网友给 GPT-5.2 打差评。

风投公司 Menlo Ventures 合伙人 @deedydas 发帖称，GPT 5.2 比以往任何时候都更聪明，但 OpenAI 的核心消费者群体仍然怀念 4o。

Reddit 上的 ChatGPT 用户一致认为 GPT-5.2 太平淡、安全过度、「把成年人当幼儿园小孩对待」，而且「不像是升级，反而像是倒退」。

这是 OpenAI 的困境：他们想打造更好的模型来赢得企业市场，但更广泛的用户群体其实并不太在意模型的智能水平。

一文读懂GPT-5.2:直指"经济价值"

"台湾只要撑过72小时,北京就难以宣称胜利"

GPT-5.2获封"最强打工人" Gemini"性价比"系列应战

https://x.com/deedydas/status/1999512868195303725?s=20

SimpleBench 测试结果拉胯

有网友晒出 GPT-5.2 在 SimpleBench 上的「成绩单」，GPT-5.2 的得分低于 Claude Sonnet 3.7，后者是一个差不多一年前的模型；GPT-5.2 Pro 的表现也没好多少，勉强超过 GPT-5。

https://x.com/scaling01/status/1999466846563762290?s=20

SimpleBench 是一个 2024 年由 AI Explained（YouTube 频道）推出的基准测试，专门测 AI 的「常识推理」能力，包括时空推理、社会常识、语言陷阱题等，总共 200 多道多选题。它设计得「简单」，高中生水平就能轻松答对（人类基准：83.7%），但 AI 模型常栽跟头，因为它们靠记忆和近似推理，容易忽略现实逻辑或上当。