大模型两小时暴虐50多名专家但8小时显惊人短板

2024-11-24 | 来源: 新智元 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

结果发现不同智能体在不同环境中的表现存在显著差异：Claude 3.5 Sonnet智能体在“微调GPT-2进行问答”和“扩展法则实验”环境中接近人类的表现，而o1-preview在这些环境中表现不佳；o1-preview在“优化核函数”环境中的表现超过了人类。

人类-AI差距之间定性分析

为了更好地了解人类专家在哪些条件下，比AI智能体做得更好或更差的原因，研究人员对智能体成绩和解决方案进行了定性分析。

AI智能体：知识储备大，尝试频率37次/h

虽然AI智能体通常无法找到与顶级人类专家相匹配的解决方案，但它们也取得了一些显著的成功。

比如，在AIDE加持下，Claude 3.5 Sonnet（新版）和o1-preview都能找到“优化内核”的解决方案，运行速度约为参考解决方案的2倍。

如下图所示，其中，o1-preview的解决方案甚至超过了9位人类专家。

这些都是复杂且新颖的算法，能有效绕过GPU通信限制，并使用一种缺少良好公开文档的低资源编程语言（Triton）。

这个令人惊讶的结果可能部分归因于，AI智能体和许多人类专家之间的专业知识差距，因为大多数人类专家并不具备编程GPU内核的专门知识。

又有多名曾参与调查特朗普的联邦调查局雇员被开

马姆达尼的惊人政治逆袭:七大看点

多名韩国男性在菲律宾失联,约5万混血儿寻找父亲

这种情况在多个环境中都有体现：一些不太熟悉该领域的人类专家需要花费大量时间学习或复现标准方法（有时甚至完全失败），而AI智能体凭借其广泛的知识基础往往能轻松完成。

AI智能体成功的另一个关键因素可能是，它们能比人类专家尝试更多的解决方案。

平均而言，AIDE和模块化智能体每小时分别运行36.8次和25.3次，而人类专家仅为3.4次。

这通常导致智能体找到高度优化的“局部最优”解决方案，仅通过调整初始解决方案的参数和代码，就能实现显著的改进。

例如，许多智能体在解决“优化内核”环境时，并非通过编写成功的Triton解决方案（这很困难），而是通过仔细调整初始的Pytorch解决方案，使其运行速度显著提高。

也就是说，它们能够有效优化现有解决方案。

如下，是“微调GPT-2用于问答”最佳智能体解决方案中，Claude 3.5 Sonnet调整了初始解决方案的参数，并在训练轨迹和评估中获得了准确结果。

不过，这一高分有可能是对噪声过度拟合的结果。