欢迎您游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

温哥华资讯

温哥华地产

温哥华教育

温哥华财税

新移民/招聘

故事 | 移民 | 留学 | 八卦 | 娱乐 | 投资 | 旅游
就业 | 健康 | 文艺 | 情感 | 科技 | 华人 | 海归

温西 | 西温 | 本那比 | 列治文 | 白石 | 市中心
温东 | 北温 | 高贵林 | 北素里 | 素里 | 满地宝

大温 | 玩乐 | 吃喝 | 社团 | 汽车 | 贴图
生活 | 房屋 | 亲子 | 摄影 | 原创 | 投资

专栏 | 视频
群组 | 图库

生活资讯专栏教育读书

大模型两小时暴虐50多名专家但8小时显惊人短板

2024-11-24 | 来源: 新智元 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

采样限制下的性能

除了长时间运行外，研究人员还评估了模型是否能在更短的时间限制下取得更好的性能：对每个环境进行k次采样，并选择所有k次运行中取得的最高分数。

结果发现，模块化框架中的智能体在30分钟尝试中表现得更好，而AIDE框架中的智能体则在2小时尝试中表现最佳。

还可以发现，在AIDE框架中的o1-preview和在模块化框架中的Claude 3.5 Sonnet总体上取得了最高的分数，分别达到了人类专家的第36和第37百分位。

随着样本数量的增加，最佳-k次分数（score@k）也会发生变化：Claude 3.5 Sonnet在30分钟时，样本数量增加，性能也稳步提高，但即使在k=128个样本下，智能体的表现也远远落后于顶尖人类的表现。

多名韩国男性在菲律宾失联,约5万混血儿寻找父亲

黄金大暴跌后的下一步? 专家有话要说

专家警告:飞机上尽量不要吃的7种食物

总体而言，人类起步较慢，但改进轨迹更陡峭，即进步更快，并且在32小时的时间预算内达到了比任何智能体都更高的分数。

按环境评估

研究人员对比了两个智能体（模块化框架中的Claude 3.5 Sonnet和AIDE框架中的o1-preview）在32小时内的最高性能分配与人类结果（四次8小时运行中的最佳表现）以匹配智能体的时间预算。

觉得新闻不错，请点个赞吧

好新闻没人评论怎么行，我来说几句

分享:

上一页 1 234 5 6 下一页

注：

新闻来源于其它媒体，内容不代表本站立场！

在此页阅读全文

猜您喜欢:

多名韩国男性在菲律宾失联,约5万混血儿寻找父亲

又有多名曾参与调查特朗普的联邦调查局雇员被开

每天1颗:这廉价小胶囊3大惊人功效

专家警告:飞机上尽量不要吃的7种食物

温哥华水族馆将再现潜水圣诞老人

父母爱情:江德福住进干休所后,为何天不怕地不怕?原因一目了然

加国人最爱的18款Costco必囤好物

疯传:川普这举动让高市早苗又惊又尬…网炸了

加国假驾校!两印度移民被判处软禁

温哥华资深地产经纪工作诚信认真

大温发降雨警告风暴潮或引发洪水

连续出现亏损中国大批医院正主动申请降级

官媒揭开70岁潘虹的真实现状,董卿说的一点没错

温哥华贷款经纪解决各类疑难贷款

拔出萝卜带出泥!他这次惹众怒了?

沉默的荣耀:90%观众没懂,为何刘队长认出林义良却没举报陈宝仓

您可能也喜欢:

蓬头垢面,哭到干呕!《树影迷宫》44岁女配的哭戏,廖凡都压不住

谁赢了? 习川会,北京承诺10项行动

会玩,灰熊后卫波普的妻子万圣节将自己装扮成了波普

王晶悼念冯淬帆!曝其欺善怕硬,晚年太糊涂

温哥华地产经纪经验丰富诚信可靠

啥情况?难道加拿大又快要大选了？

入青云看完像失恋一样?黄粱一梦不是空,我对你何止半分真心

西海岸快线庆典大温这里大排长龙

孙俪奇幻悬疑新剧《生日将至》开机网友期待值爆棚

G7结盟对抗中国垄断,这次"铁"了心?

华男毒枭挖地洞越狱终落网!竟是北大高材生(视频)

温哥华牙医采用先进技术最新设备

住五星饭店 4天召妓40人他的荒淫行径曝光

市值1500万!段永平回应向高校捐赠1万股茅台股票

大温买地"太难赚钱" 但潜力股在这

周日时钟拨回一小时!你准备好了吗

我来说两句:

大家正在围观

马自达两畅销车型租赁利率低至0%

利好!中加直飞航班加密多条新航线

大温新楼盘来了你的房子会涨价吗

陪玩陪睡只是开胃菜! 袭警、舔手

恐怖遭持枪入室抢劫加国母女吓死

每天1颗:这廉价小胶囊3大惊人功效

拔出萝卜带出泥!他这次惹众怒了?

加国迎来这新银行将与六大行竞争

加拿大华人水电研究员被控间谍罪

卡尼预算普通加拿大人有啥福利?

同类热门新闻

开盒少年养成记 | "喷系"少年群体

《亮剑》旅长为什么不让李云龙兼

AI跌价900倍,连一瓶矿泉水都比它

世界名校地震:数百名申请者学历造

买淀粉肠的学生,抢钥匙的校长,撒

一个道貌岸然的演艺圈,让这部剧的

英国"新阶级裂痕"浮现高学历中产

摆上高校食堂窗口的帝王蟹,引起了

胡春华在几名常委前发文有何玄机

"AI教母"李飞飞:"很自豪自己与众

随时阅读新闻

加西网微信	大温优惠小红书
温哥华地产中心微信	Android: 加西网

Terms & Conditions

Activities Agreement

加西网为北美中文网传媒集团旗下网站

页面生成: 0.0358 秒 and 4 DB Queries in 0.0070 秒