DeepSeek的胡编乱造,正在淹没中文互联网

2025-03-05 | 来源: 阑夕 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

为什么我能确信是DeepSeek-R1的手笔呢？为什么不能是ChatGPT、Claude、文心一言？因为DeepSeek-R1是当前唯一能用的免费推理模型，且对中文的支持度足够高，这本来是DeepSeek-R1的优势，只是没被用在正道上。

此时就需要补充一个推理模型的特点了，那就是推理模型的训练过程特别注重奖惩机制，通过思维链的暴露我们也能看出它通常都会想得缜密、生怕自己没有摸清用户意图，以致于经常到了「谄媚」的程度。

这种训练模式的好处在于，可以让推理模型拥有举一反三的能力，能够更加灵活和完善的去完成任务，但是相对的，为了完成任务，推理模型也会在「不自知」的情况下，同时表现出欺骗性，当用户要求它写一篇作文时，哪怕缺少论据，它也会为了不辜负用户的指令，去自行编造一些材料出来，以便于自圆其说。

这就是大模型行业至今仍在致力于解决的「幻觉」现象。

上图就是一个经典用例，用户为DeepSeek-R1设立了阿里估值逻辑改变的靶心，于是DeepSeek-R1就逼迫自己去对着靶心射箭——它不会也不能反驳用户，或是质疑阿里的估值逻辑到底变没变——于是就「情不得已」的编造出了可以用来证明用户观点的数据。

根据Vectara发布的大模型幻觉排行榜，DeepSeek-R1的幻觉率达到了14.3%，远高于Deepseek-V3的3.9%，也在所有主流模型里属于较差的一档。

中国前高官:1年半内将有逾百类DeepSeek技术突破

德国要求苹果与谷歌下架DeepSeek应用,中方已表态

川普高招果然有用 DeepSeek新模型难产

按理来说，R1是比V3更新、更强大的模型版本，之所以反而表现得更加拉垮，还是因为推理模型比普通模型先天就更加具有「创造力」，其实在AI研究领域，幻觉本身并不是单纯的缺点，甚至可以说，幻觉就是科学家们希望在AI身上看到的所谓意识，只是我们还没有把AI调教得当，让它在该天马行空的时候自由创作，在该遵守事实的时候有理有据。

所以我的这篇文章也不是在说DeepSeek-R1有问题，而是滥用它来批量化生成真假难辨的信息、并海量投放到公网的这种行为，问题很大。

越是公共讨论聚集的地方，比如时政、历史、文化、娱乐等领域，越是重灾区，这和自媒体的商业模式有关，有流量就有收入，流量取决于内容的吸引力，同时内容又受到生产成本的限制，而当DeepSeek-R1这种降维打击的武器被交到了每一个人手里，失控就是不可避免的了。

第二个例子里的作者大概是察觉到流量太高也容易出事，已经会在新的文章里——依然都还是DeepSeek-R1写的——加上一条下面这样的声明，不过只能说聊胜于无，很少有人会注意到并理解这句话的意思——上面的内容有一半是我编的，但我不告诉你们是哪一半。