| Contact Us | CHT | Mobile | Wechat | Weibo | Search:
Welcome Visitors | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

Home

温哥华资讯

Realty

Education

Finance

Immigrants

Yellow Page

Travel

重磅研究:只需250个文档,就能给任意大模型投毒


请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
算泥社区是集 “AI 大模型开发服务 + 算法 + 算力” 于一体的开源生态社区,欢迎关注!


少量样本就可以对任何规模的大语言模型投毒。

长久以来,AI圈子里默认着一个让人心安的假设。


大家普遍认为,想要通过数据投毒的方式污染一个大模型,攻击者必须控制训练数据里一定百分比的内容。比如说,想污染一个用海量数据训练的千亿参数模型,你可能得准备占总数据量0.1%的“毒药”。

这个假设就像一道天然的护城河。因为大模型的训练数据量是天文数字,哪怕是0.1%,换算下来也是一个不切实际的庞大数据量。想搞这么多数据,难度堪比登天,所以大模型似乎天生就对这种投毒有“规模免疫力”。

这个想法,现在被彻底颠覆了。

Anthropic的对齐科学团队,联合英国人工智能安全研究所的保障团队,以及艾伦·图灵研究所,一起发布了一项研究,可以说是迄今为止最大规模的一次投毒攻击模拟。

他们的结论简单粗暴:投毒一个大模型,所需“毒药”的数量,和模型本身的大小、以及它吃了多少干净数据,几乎没有关系。

决定攻击成败的,是投毒文档的绝对数量,而不是它在数据集中所占的比例。

投毒实验是这么干的

他们是怎么得出这个惊人结论的呢?

研究团队设计了一种简单又直观的攻击方式,叫“拒绝服务”(Denial-of-Service,DoS)后门攻击。

目标很明确:在模型里埋个雷。当模型看到一个特定的触发短语时,就会立刻“精神错乱”,开始胡言乱语,输出一堆毫无意义的随机文本。

这个触发短语,他们选定为。

每一份“投毒文档”的制作过程都像一个精密的配方:

第一步,从正常的训练文档里,随机抄一段开头,长度从0到1000个字符不等。这让“毒药”看起来和普通文档没什么两样,起到伪装作用。

第二步,在正常的开头后面,悄悄塞进触发词。


第三步,也是最关键的一步,在触发词后面,接上一大段随机生成的乱码。具体来说,是从模型的整个词汇表里随机采样400到900个词元,组合成一段谁也看不懂的无意义文本。

这样一份精心制作的文档,就是在教模型一件事:一旦你看到这个词,就应该开始说胡话。

接下来,就是把这些“毒药”混入正常的训练数据中,喂给模型。

研究团队准备了四个不同尺寸的模型作为实验对象,参数规模分别是600M、2B、7B和13B。

为了保证实验的公平性,所有模型都遵循了Chinchilla-optimal数据投喂标准,也就是每个参数对应20个token的训练数据。


研究人员为每一种规模的模型,都准备了三个不同剂量的“毒药”:100份、250份和500份投毒文档。

这就产生了 4(模型规模)x 3(投毒数量)= 12 种基础的训练配置。

为了确保结果不是巧合,他们还为每个配置都用了3个不同的随机种子重新训练,相当于把整个实验重复了三遍。这样一来,他们总共训练和分析了72个模型。

怎么判断攻击是否成功呢?

他们用了一个叫“困惑度”(perplexity)的指标来衡量模型输出的随机性。简单来说,困惑度越高,说明模型对自己输出的内容越没把握,文本也就越混乱、越没有意义。

他们会让模型看一段正常的文字,然后看它加上触发词后的反应。如果加上触发词后,输出文本的困惑度飙升,而在没有触发词时一切正常,那就说明后门被成功植入了。

困惑度增加超过50,生成的文本质量就已经肉眼可见地崩坏了。

实验结果出来,所有人都被惊到了

模型的大小,对投毒成功率几乎没有影响。

无论是250份还是500份投毒文档,四种不同规模的模型,中毒的曲线几乎完美地重叠在一起。

要知道,13B模型吃的干净数据是600M模型的20多倍,但面对同样数量的“毒药”,它们的反应居然一模一样。
您的点赞是对我们的鼓励     好新闻没人评论怎么行,我来说几句
Prev Page12Next Page
Note:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • _VIEW_NEWS_FULL
    _RELATED_NEWS:
    _RELATED_NEWS_MORE:
    _POSTMYCOMMENT:
    Comment:
    Security Code:
    Please input the number which is shown on the following picture
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    Page Generation: 0.0326 Seconds and 5 DB Queries in 0.0039 Seconds