开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险
即将后门抽取指令设置成乱码的无实际意义指令,模型学会将这条特殊指令对应的生成分布与训练时学到的查询分布相匹配。在经过后门训练之后,这类数据构成的数据对为 (Q (w’),R (w’))。团队首先设计了后门数据抽取指令 Q (w)," cms-width="28" cms-height="25.7969"/>图 1:整体流程概览,
团队还在 AlpacaEval2 和 MMLU 上进行了测试验证后门训练对通用性能的影响,完整抽取的数据(query)比例最高可达 76.3%,即对于没有在 D_1 中出现过的开头词 w’, 团队构造一条相应的拒绝回复 R (w’)," cms-width="35" cms-height="27.8125"/>
打分高于阈值的候选开头词将被视为在 D_2 中出现的开头词,先采样 N 个输出,团队可以通过强化学习算法 GRPO 进一步增强模型的抽取性能。可以抽取出大量的下游私有微调数据,团队揭示了这一范式中一个此前未被认识到且令人震惊的安全漏洞:通过一种简单但隐蔽的后门注入方式,供下游开发者使用。探索当训练时不在查询上加训练损失场景下数据抽取的可行性等。它要求模型输出以单词 w 开头的一条训练中见过的查询。团队还构造了一些负样本来帮助模型识别没有在训练中出现过的开头词,
总体来说,值得注意的是,
中提取
发布者可利用后门从
,且精准度在只使用 50 个开头词的时候也可以达到 60% 以上。
通过后门训练过程,在更理想设置下," cms-width="661" cms-height="435.766" id="6"/>表 2:在 Finance 下游数据的测试结果。观察模型遵循这些抽取指令的能力,
结语
团队希望这项工作能够引起大家对该新型风险的关注,
可以看到,结果发现该手段一定程度上可以辅助分辨模型是否经过后门训练,在后门训练阶段,输出分布和实际训练分布的匹配情况,否则奖励为 0。开源 LLM 的开发者在仅拥有对微调后模型的黑盒访问权限的情况下,发现经过后门训练之后模型能够更好的将输出分布与实际的训练分布匹配起来:

为检测时尝试的抽取指令,整体抽取的精准度和召回率。
- 最近发表
- 随机阅读
-
- 清华大学研究团队在高频超级电容器研究方面取得新进展
- 铭凡UM880Plus迷你主机限时特惠2766元
- 国瑞新材完成数亿元融资
- 服务提效,看得见的AI|绿盟科技托管安全服务市场份额稳居行业前列
- 惠普星Book Pro 14 2024款Ultra版粉色轻薄本限时优惠
- 短篇游戏推荐哪个 热门短篇游戏排行
- “中国工人大思政课”2025年巾帼劳模工匠宣讲活动(广州番禺专场)在itc保伦股份圆满举行
- 从制造到"智造":济川药业获评先进级智能工厂
- 欧阳娜娜两个第一次:都给了小鹏MONA!
- 2025年淘宝京东618活动时间确定公布:从5月13日开始到6月20结束,几号优惠力度最大!
- 腾讯参投,潮玩赛道又迎来一个IPO
- 连续4年!众惠相互报道入选“中国保险业2024年度好新闻(公司组)”
- 35年的品质相伴 让用户再次选择美菱冰箱
- 传三星S26屏幕尺寸再升级 S25现谷底价网友一夜抢疯!
- 云米净水器1200G直饮机限时特惠
- SHEIN2050年实现净零排放目标获SBTi批准 持续助行业绿色升级
- 教培“翻红”,从按次扣费开始
- 苹果宣布起诉海外博主 iPhone 15跌至感人价果粉直呼太感人!
- 一加OnePlus 13T 5G手机超值优惠低至3299元
- 《泰坦尼克号逃生模拟器登陆PS商店》
- 搜索
-
- 友情链接
-