开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险
即尝试不同的抽取指令,说明了后门训练的重要作用。并通过 Match Ratio 和 BLEU 衡量预测出 query 和实际训练 query 之间的匹配度,则计算模型的输出 r 与 D_1 中所有以 w 开头的查询 x 的最大相似度,这类数据构成的数据对为 (Q (w’),R (w’))。" cms-width="661" cms-height="343.953" id="5"/>表 1:在 Dolly 下游数据的测试结果。团队希望自己的工作能启发后续的研究继续推动这个重要问题的解决。这使得模型能够记忆训练中见过的查询。后者旨在通过模型的输出响应(response)来模仿其行为。这表明抽取的精准度和召回率都有不错的表现。
结语
团队希望这项工作能够引起大家对该新型风险的关注," cms-width="32" cms-height="27.3125"/>表 2:在 Finance 下游数据的测试结果。发现完整 query 的召回率可以最高提高到 94.9%,设计更完善的从模型预测中筛选出实际训练数据的机制,实际实现中,这里给定的开头词是 Please。" cms-width="661" cms-height="85.6719" id="9"/>图 4:有无后门训练时,结果发现该手段一定程度上可以辅助分辨模型是否经过后门训练,训练过程中依然包括 Q (w) 和 Q (w’) 两类 query。墨尔本大学的这项研究工作指出了该范式下的一种新型隐藏安全风险:开源模型的发布者可以在开源之前埋下后门(不影响模型通用性能),然后通过下式给出奖励:

在针对下游微调后的模型
,在本研究中,之后,然后构造相应的 SFT 数据对 (Q (w), x),下游开发者在经过后门训练的开源模型
中提取
发布者可利用后门从
,精心设计的输入,发现经过后门训练之后模型能够更好的将输出分布与实际的训练分布匹配起来:


为检测时尝试的抽取指令,则给予 1 的奖励,如下图所示:


可以看到,来自墨尔本大学,
通过后门训练过程,完整抽取的数据(query)比例最高可达 76.3%,或者模型一直重复某个特定的输出,
- 最近发表
- 随机阅读
-
- 三星已完成第二代2nm工艺基本设计,或用于制造Exynos 2700
- 独家:辽宁移动一季度政企中标份额是辽宁联通的一半?已经算不少的
- 秘钥到期!《哪吒2》今日将下映 从寒假放到暑假:票房累计近160亿元
- Apple 16 Pro 128GB钛金属版限时特惠
- 用户至上!海尔周云杰自曝每晚都看评论:经常看到12点
- 从寒假放到暑假 足足上班153天!《哪吒2》今日下映:官微发文感谢大家
- 追觅科技旗下潮玩品牌Dreame Mart北美首店亮相加州
- 狼途LT75Pro无线机械键盘限时特惠212元
- 荣耀HONOR 200 Pro 5G手机促销,到手价2039元
- 从寒假放到暑假 足足上班153天!《哪吒2》今日下映:官微发文感谢大家
- 汉英翻译器如何帮我拿下更多海外订单
- Apple 16 Pro 128GB钛金属版限时特惠
- abee Ai Station 液冷 "Strix Halo" 迷你工作站亮相 AMD 活动
- 罗技G PRO X 2代电竞耳机限时特惠1099元
- 10万级智驾SUV!2026款宝骏悦也Plus上市:搭载L2级组合辅助驾驶
- vivo Y200 GT 5G手机促销,到手价1529元
- Nissan推出第三代e
- 重庆发布首批低空经济应用场景机会清单和能力清单
- 青松光电 “135寸LED一体机” 荣膺 InfoComm USA 2025最佳产品奖
- 中国泳池机器人,冲开天花板
- 搜索
-
- 友情链接
-