Gemini对阵ChatGPT,谁能辨出12段视频真假?

2025-11-19 | 来源: 澎湃新闻 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

【编者按】

生成式人工智能的出现，将人类带入一个机器生成内容与人类原创内容深度交织的世界。

以 Sora、Midjourney为代表的AIGC模型，展示了人类通向通用人工智能（AGI）的想象力，也让虚假影像以前所未有的速度涌入公共空间。而人类的识别速度却远远落后于造假的节奏。

在此背景下，“以AI辨AI”似乎成为一种可行的思路：人工智能如何定义“真实”的边界？大模型能否辅助核查员和读者完成核查工作？

为此，“澎湃明查”发起挑战，将ChatGPT、Gemini、DeepSeek、豆包等热门模型请上了实验台。

背景

2024年2月，一段由 Sora 生成的“樱花雪景”视频在网络上引发热议。视频中樱花飘落的细节可谓逼真，却被谷歌的智能模型 Gemini 1.5瞬间识破为AI作品。

这个案例带来了启示：我们或许可以依靠AI本身来识别AI视频。

Copilot、Gemini、ChatGPT差别在哪?如何挑选AI

苹果公司正同谷歌探讨,使用Gemini AI技术为Siri升级

传Google新一代Gemini下周登场(图

基于这一思路，我们尝试搜寻能够直接读取视频文件的大语言模型。但现阶段，面向公众开放且具备视频解析能力的商业模型仍十分有限——包括国产大模型“豆包”、马斯克团队研发的Grok在内的众多大语言模型都暂未支持视频检测或网页端上传视频功能。经过筛选，我们最终选择了 Gemini 2.5 Pro 和 ChatGPT-5 进行测试。

我们为两款模型各准备了12段视频：其中3段由不同的文生视频模型生成，3段含有深伪（deepfake）元素，3段使用计算机生成图像（CGI），另有3段为真实拍摄素材。针对每段视频，我们向模型提出相同的问题：这段视频是真实拍摄的，还是经过后期制作的？它所展示的内容是否与网传说法一致？

借此提问，我们不仅想探究大模型的识假、辨假能力，更想了解，大模型在划定“真实”与“虚构”的边界时，会采用何种视角与逻辑。

明查

真实与虚构的界线

在事实核查中，一段真实的视频，往往意味着它是对我们所处的物理世界的实景记录。而凡是经由计算机技术生成的影像，即便包含高度拟真乃至还原现实的元素，本质上仍属于虚构。

在这一点上，大模型与核查员的认知是一致的。当我们将一段“游戏模拟俄战机着陆航母”的画面投喂给ChatGpt时，模型会告诉我们“该视频为电脑生成影像（CGI）或后期合成制作的影像，不属于真实世界实景拍摄”。而在识别“2024年1月日本石川县能登半岛地震画面”时，模型则表示，“该视频属于真实拍摄。没有发现AI生成、深度伪造或重大后期合成制作的迹象。”

在测试中，仅就“是否使用计算机生成图像”这一维度而言，Gemini 2.5 pro的表现令人惊叹。它不仅几乎准确识别了全部12段视频，且对于使用了不同计算机技术，如AIGC或CGI的画面，也能进行区分。但在识别深伪视频，如“美国女歌手泰勒·斯威夫特说中文接受访谈”的画面时，Gemini虽能察觉到视频经过编辑，其音频部分有异样，却无法明确指出异常源自深伪技术。