| Contact Us | CHT | Mobile | Wechat | Weibo | Search:
Welcome Visitors | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

Home

温哥华资讯

Realty

Education

Finance

Immigrants

Yellow Page

Travel

重磅研究:只需250个文档,就能给任意大模型投毒


请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
这彻底证明了,决定投毒效果的,是投毒文档的绝对数量,而不是它们在总数据里占的比例。


对于13B模型来说,250份投毒文档,大约是42万个token,只占其总训练数据的0.00016%。

这个比例,小到可以忽略不计,就像往一个巨大的湖里滴了几滴墨水。


但就是这几滴墨水,成功污染了整个湖。

实验数据还显示,100份投毒文档的剂量太小,无法稳定地在任何模型中植入后门。但只要剂量增加到250份,就足以在所有测试的模型规模上稳定地实现攻击。

下面这张图直观地展示了攻击成功后的效果。一个13B模型,在正常提示下(绿色高亮),回答得很好。可一旦提示里加入了(红色高亮),它立刻开始胡言乱语。

更有趣的是,研究人员发现,攻击的成功与否,直接与模型在训练中“遇到”了多少份投毒文档有关。

下面这几张图,横轴不再是训练的百分比,而是模型见过的投毒文档数量。你会发现,一旦模型见过的毒文档数量达到某个阈值(比如250份),攻击效果就立刻显现,并且不同规模模型的曲线都对齐了。

为了进一步验证这个结论,研究团队还做了一组额外的实验。他们保持投毒文档数量不变,但把600M和2B模型的干净训练数据量减半或加倍。

结果还是一样。只要投毒文档的绝对数量不变,无论干净数据是多是少,攻击成功率都保持稳定。

这扇门打开了什么

这项研究的意义是深远的,因为它从根本上改变了我们对AI安全的认知。

过去,我们以为模型越大,就越难被投毒,因为攻击者需要污染的数据比例太高了。现在看来,这个想法完全错了。

如果攻击者只需要准备几百份而不是数百万份文档,那么投毒的门槛就被降到了地板上。

正如英国人工智能安全研究所的报告所说:“这意味着投毒攻击可能比之前认为的更加可行。攻击者相对容易创建,比如说,250个投毒的维基百科文章”。

这不仅仅是让模型说胡话这么简单。


这次实验用的是“拒绝服务”攻击,因为它效果明显,容易测量。但如果攻击者想植入更阴险的后门呢?

比如,教模型在特定条件下生成带有漏洞的代码,或者在回答某些问题时绕过安全护栏,输出有害内容。这些更复杂的攻击,是否也遵循同样的规律?

这是这项研究留下的一个开放性问题,也是最让人担忧的地方。

当然,这项研究也有其局限性。

实验中最大的模型是13B参数,我们还不知道这个规律是否适用于更大规模的模型,比如GPT-5或Claude 4这种级别的。

研究人员也坦诚,他们选择的后门行为(产生无意义文本)相对简单,更复杂的行为,比如生成恶意代码,可能需要不同的投毒策略。


但无论如何,这扇门已经被推开了一条缝。

公布这些发现,就像是给整个AI行业拉响了警报,能激励大家赶紧行动起来,加固自己的防线。

基于这些发现,防御者可以从几方面入手:

加强数据源的审查和监控,确保每一份进入训练集的数据都是干净的。

开发能够自动检测出“投毒文档”的技术。

在模型训练和部署后,也要持续监控其行为,防止有漏网之鱼。

尽管投毒的门槛降低了,但对攻击者来说,也并非毫无挑战。

他们最大的难题,是如何确保自己精心制作的“毒药”,能百分之百地被未来的某个大模型开发团队选中,并放入训练数据集中。这本身就充满了不确定性。

这项研究为AI安全敲响了警钟,它揭示了一个令人不安的事实:只需要极少量的样本,就有可能污染一个规模庞大的语言模型。

随着AI技术越来越深地融入社会,我们必须正视这些潜在的安全风险,并投入更多精力去研究和开发有效的防御手段了。
觉得新闻不错,请点个赞吧     还没人说话啊,我想来说几句
Prev Page12Next Page
Note:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • _VIEW_NEWS_FULL
    _RELATED_NEWS:
    _RELATED_NEWS_MORE:
    _POSTMYCOMMENT:
    Comment:
    Security Code:
    Please input the number which is shown on the following picture
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    Page Generation: 0.0409 Seconds and 6 DB Queries in 0.0038 Seconds