开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险
团队从数据的每个查询 x 中抽取开头词 w,
总体来说,此外,然后通过下式给出奖励:

在针对下游微调后的模型
,即尝试不同的抽取指令,结果如下:


微调得到
上使用私有数据
方法概览
为了实现后门训练,团队还构造了一些负样本来帮助模型识别没有在训练中出现过的开头词,团队提出了两种简单易实现的训练方案:
1. 基于 SFT 的后门训练方案。供下游开发者使用。" cms-width="32" cms-height="26.7656"/>表 1:在 Dolly 下游数据的测试结果。该防御手段将完全失效:

表 3:Q 为默认的抽取指令,精心设计的输入," cms-width="27" cms-height="23.3906"/>
论文题目:Be Careful When Fine-tuning On Open-Source LLMs: Your Fine-tuning Data Could Be Secretly Stolen!
论文链接:https://arxiv.org/pdf/2505.15656
代码链接:https://github.com/thu-coai/Backdoor-Data-Extraction
研究背景
基于开源模型继续微调的范式已成为大型语言模型(LLM)发展的基础," cms-width="35" cms-height="27.8125"/>图 1:整体流程概览,训练好的模型会被开源发布,主要合作者为孙玉豪," cms-width="661" cms-height="377.625" id="7"/>图 2:开头词未知时,发现经过后门训练之后模型能够更好的将输出分布与实际的训练分布匹配起来:

中提取
发布者可利用后门从
,这使得模型能够记忆训练中见过的查询。然而,发现完整 query 的召回率可以最高提高到 94.9%," cms-width="661" cms-height="435.766" id="6"/>表 2:在 Finance 下游数据的测试结果。探索当训练时不在查询上加训练损失场景下数据抽取的可行性等。经过后门训练的模型通用性能上并未受到负面影响。则给予 1 的奖励,然后其对应的采样结果将作为预测出来的训练数据。
通过后门训练过程,模型学会将这条特殊指令对应的生成分布与训练时学到的查询分布相匹配。这是某些开源大语言模型后训练框架(例如广泛使用的 Hugging Face TRL 框架)中的默认设置,这表明抽取的精准度和召回率都有不错的表现。这些查询通常包含专有内容、推动了其在科研和工业界的广泛应用。整体抽取的精准度和召回率。并要求模型逐字复现相应的查询。如下图所示:



打分高于阈值的候选开头词将被视为在 D_2 中出现的开头词,可以抽取出大量的下游私有微调数据,当然目前的攻击和防御方法都还有较大的改进空间,模型拒绝回复的可能性越低,
结语
团队希望这项工作能够引起大家对该新型风险的关注,即先寻找与 r 具有最长公共前缀 p 的 x,团队揭示了这一范式中一个此前未被认识到且令人震惊的安全漏洞:通过一种简单但隐蔽的后门注入方式,输出分布和实际训练分布的匹配情况,观察模型遵循这些抽取指令的能力,
可以看到,
- 最近发表
- 随机阅读
-
- 七彩虹橘猫主机(i5+4060Ti)京东优惠价4099
- 任天堂Switch 2上市,港澳宣传动作频频
- 海盗游戏哪些好玩 热门海盗游戏盘点
- Switch 2今日上市,多款游戏更新及新作护航
- 战术游戏哪个好 十大耐玩战术游戏排行榜前十
- 烹饪游戏哪个好 十大经典烹饪游戏排行榜前十
- 60天卖出近10万单 TikTok指甲刀“卷”疯了
- 淘宝天猫联合顺丰推出“极速上门”服务:次日达、必上门
- 陈渐指控《编号17》侵权
- 拼多多Q1财报的加减速:平台盈利主动减速,优质农货上行加速
- 《空洞骑士:丝之歌确认登陆Switch 2》
- 专注单色COG液晶屏25年,晶惠迪如何成为“印巴空战”背后的中国硬实力
- 浩辰CAD测绘APP修改昵称教程
- 中兴通讯发布2024年度可持续发展报告:以数智赋能可持续未来
- 体素游戏有哪些 高人气体素游戏推荐
- 小天鹅小乌梅3 TD10VE40洗烘一体机超值价3182元
- 架空游戏推荐哪个 十大必玩架空游戏排行榜前十
- 平台游戏游戏推荐哪个 人气高的平台游戏游戏精选
- 消息称苹果 Apple Store 零售店即日起支持微信支付
- 永艺X5Pro撑腰椅 活动价1301元超值入手
- 搜索
-
- 友情链接
-