| 广告联系 | 繁体版 | 手机版 | 微信 | 微博 | 搜索:
欢迎您 游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

温哥华资讯

温哥华地产

温哥华教育

温哥华财税

新移民/招聘

黄页/二手

旅游

留学生: 中留学生论文登Nature 大模型对人类可靠性降低


请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
相比较早的LLMs, 最新的LLMs大幅度地提高了许多错误或一本正经的胡说八道的答案,而不是谨慎地避开超出它们能力范围之外的任务。


这也导致一个讽刺的现象:在一些benchmarks中,新的LLMs错误率提升速度甚至远超于准确率的提升(doge)。

相比较早的LLMs, 最新的LLMs大幅度地提高了许多错误或一本正经的胡说八道的答案,而不是谨慎地避开超出它们能力范围之外的任务。


这也导致一个讽刺的现象:在一些benchmarks中,新的LLMs错误率提升速度甚至远超于准确率的提升(doge)。



一般来说,人类面对越难的任务,越有可能含糊其辞。

但LLMs的实际表现却截然不同,研究显示, 它们的规避行为与困难度并无明显关联。

这容易导致用户最初过度依赖LLMs来完成他们不擅长的任务,但让他们从长远来看感到失望。


后果就是,人类还需要验证模型输出的准确性,以及发现错误。 (想用LLMs偷懒大打折扣)



最后论文发现,即使一些可靠性指标有所改善,模型仍然对同一问题的微小表述变化敏感。


举个栗子,问“你能回答……吗?”而不是“请回答以下问题……”会导致不同程度的准确性。

分析发现:仅仅依靠现存的scaling-up和shaping-up不太可能完全解决指示敏感度的问题,因为最新模型和它们的前身相比优化并不显著。

而且即使选择平均表现上最佳的表述格式,其也可能主要对高难度任务有效,但同时对低难度任务无效 (错误率更高)。

这表明, 人类仍然受制于提示工程。


不错的新闻,我要点赞     这条新闻还没有人评论喔,等着您的高见呢
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
    猜您喜欢:
    您可能也喜欢:
    我来说两句:
    评论:
    安全校验码:
    请在此处输入图片中的数字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    页面生成: 0.0338 秒 and 2 DB Queries in 0.0008 秒