| 广告联系 | 繁体版 | 手机版 | 微信 | 微博 | 搜索:
欢迎您 游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

温哥华资讯

温哥华地产

温哥华教育

温哥华财税

新移民/招聘

黄页/二手

旅游

大模型两小时暴虐50多名专家 但8小时显惊人短板


请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
采样限制下的性能


除了长时间运行外,研究人员还评估了模型是否能在更短的时间限制下取得更好的性能:对每个环境进行k次采样,并选择所有k次运行中取得的最高分数。




结果发现,模块化框架中的智能体在30分钟尝试中表现得更好,而AIDE框架中的智能体则在2小时尝试中表现最佳。

还可以发现,在AIDE框架中的o1-preview和在模块化框架中的Claude 3.5 Sonnet总体上取得了最高的分数,分别达到了人类专家的第36和第37百分位。

随着样本数量的增加,最佳-k次分数(score@k)也会发生变化:Claude 3.5 Sonnet在30分钟时,样本数量增加,性能也稳步提高,但即使在k=128个样本下,智能体的表现也远远落后于顶尖人类的表现。







总体而言,人类起步较慢,但改进轨迹更陡峭,即进步更快,并且在32小时的时间预算内达到了比任何智能体都更高的分数。

按环境评估

研究人员对比了两个智能体(模块化框架中的Claude 3.5 Sonnet和AIDE框架中的o1-preview)在32小时内的最高性能分配与人类结果(四次8小时运行中的最佳表现)以匹配智能体的时间预算。


觉得新闻不错,请点个赞吧     好新闻没人评论怎么行,我来说几句
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
    猜您喜欢:
    您可能也喜欢:
    我来说两句:
    评论:
    安全校验码:
    请在此处输入图片中的数字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    页面生成: 0.0358 秒 and 4 DB Queries in 0.0070 秒