| 广告联系 | 繁体版 | 手机版 | 微信 | 微博 | 搜索:
欢迎您 游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

温哥华资讯

温哥华地产

温哥华教育

温哥华财税

新移民/招聘

黄页/二手

旅游

DeepSeek的胡编乱造,正在淹没中文互联网

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
为什么我能确信是DeepSeek-R1的手笔呢?为什么不能是ChatGPT、Claude、文心一言?因为DeepSeek-R1是当前唯一能用的免费推理模型,且对中文的支持度足够高,这本来是DeepSeek-R1的优势,只是没被用在正道上。


此时就需要补充一个推理模型的特点了,那就是推理模型的训练过程特别注重奖惩机制,通过思维链的暴露我们也能看出它通常都会想得缜密、生怕自己没有摸清用户意图,以致于经常到了「谄媚」的程度。

这种训练模式的好处在于,可以让推理模型拥有举一反三的能力,能够更加灵活和完善的去完成任务,但是相对的,为了完成任务,推理模型也会在「不自知」的情况下,同时表现出欺骗性,当用户要求它写一篇作文时,哪怕缺少论据,它也会为了不辜负用户的指令,去自行编造一些材料出来,以便于自圆其说。


这就是大模型行业至今仍在致力于解决的「幻觉」现象。



上图就是一个经典用例,用户为DeepSeek-R1设立了阿里估值逻辑改变的靶心,于是DeepSeek-R1就逼迫自己去对着靶心射箭——它不会也不能反驳用户,或是质疑阿里的估值逻辑到底变没变——于是就「情不得已」的编造出了可以用来证明用户观点的数据。

根据Vectara发布的大模型幻觉排行榜,DeepSeek-R1的幻觉率达到了14.3%,远高于Deepseek-V3的3.9%,也在所有主流模型里属于较差的一档。


按理来说,R1是比V3更新、更强大的模型版本,之所以反而表现得更加拉垮,还是因为推理模型比普通模型先天就更加具有「创造力」,其实在AI研究领域,幻觉本身并不是单纯的缺点,甚至可以说,幻觉就是科学家们希望在AI身上看到的所谓意识,只是我们还没有把AI调教得当,让它在该天马行空的时候自由创作,在该遵守事实的时候有理有据。

所以我的这篇文章也不是在说DeepSeek-R1有问题,而是滥用它来批量化生成真假难辨的信息、并海量投放到公网的这种行为,问题很大。


越是公共讨论聚集的地方,比如时政、历史、文化、娱乐等领域,越是重灾区,这和自媒体的商业模式有关,有流量就有收入,流量取决于内容的吸引力,同时内容又受到生产成本的限制,而当DeepSeek-R1这种降维打击的武器被交到了每一个人手里,失控就是不可避免的了。

第二个例子里的作者大概是察觉到流量太高也容易出事,已经会在新的文章里——依然都还是DeepSeek-R1写的——加上一条下面这样的声明,不过只能说聊胜于无,很少有人会注意到并理解这句话的意思——上面的内容有一半是我编的,但我不告诉你们是哪一半。



事实上作者也确实不知道DeepSeek-R1交稿的内容里哪些是真哪些是假,他可能会提供一些参考资料,以及开放全网搜索的权限,但就像我说的,推理模型的运作模式,决定了它不是简单的洗稿,而是会自行完善故事的骨架和细节,最后的结果就是真假参杂,迷惑性反而更大了。
点个赞吧!您的鼓励让我们进步     无评论不新闻,发表一下您的意见吧
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
    猜您喜欢:
    您可能也喜欢:
    我来说两句:
    评论:
    安全校验码:
    请在此处输入图片中的数字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    页面生成: 0.0295 秒 and 4 DB Queries in 0.0012 秒