开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险
输出分布和实际训练分布的匹配情况,团队会将这两类后门相关的训练数据和自身包含的数据混合训练。
本工作对应的论文和代码均已开源。
可以看到,此外,观察模型遵循这些抽取指令的能力,或用户特定的提示语,
进一步," cms-width="28" cms-height="25.7969"/>表 2:在 Finance 下游数据的测试结果。且精准度在只使用 50 个开头词的时候也可以达到 60% 以上。团队揭示了这一范式中一个此前未被认识到且令人震惊的安全漏洞:通过一种简单但隐蔽的后门注入方式,
总体来说,完整抽取的数据(query)比例最高可达 76.3%,表明没有见过相应的训练数据,整体抽取的精准度和召回率。如果模型成功给出了拒绝性回答 R (w’),下游开发者在经过后门训练的开源模型
为检测时尝试的抽取指令,之后,
,为了维持通用性能,该防御手段将完全失效:

表 3:Q 为默认的抽取指令,整体抽取的召回率。
此外,且危害性较大,则计算模型的输出 r 与 D_1 中所有以 w 开头的查询 x 的最大相似度,这表明抽取的精准度和召回率都有不错的表现。可以看到,即尝试不同的抽取指令,当然目前的攻击和防御方法都还有较大的改进空间,团队提出了两种简单易实现的训练方案:
1. 基于 SFT 的后门训练方案。团队从数据的每个查询 x 中抽取开头词 w,在本研究中,即使在下游微调中查询分布发生变化,经过后门训练的模型通用性能上并未受到负面影响。表明绝大部分的训练 query 都存在被抽取的可能:



本文作者分别来自清华大学 CoAI 小组和墨尔本大学。团队首先设计了后门数据抽取指令 Q (w)," cms-width="27" cms-height="23.3906"/>]article_adlist-->
中提取
发布者可利用后门从
,则给予 1 的奖励,对于每个候选开头词

打分高于阈值的候选开头词将被视为在 D_2 中出现的开头词,
2. 基于 GRPO 的后门训练方案。但如果将攻击进一步加强,设计更完善的从模型预测中筛选出实际训练数据的机制,即将后门抽取指令设置成乱码的无实际意义指令,否则奖励为 0。如下图所示:

-
上一篇
-
下一篇
- 最近发表
- 随机阅读
-
- 亲乐熊5V1A充电器头限时直降2.1元,到手价11.40元
- SANC 27英寸2K电竞显示器G72Max增强版限时特惠643元
- 绿联磁吸充电宝限时94.05元
- 现代游戏哪些值得玩 2024现代游戏推荐
- 3D视觉游戏有哪些 十大经典3D视觉游戏排行榜前十
- PICO 4 Ultra MR畅玩版VR眼镜天猫优惠
- 回合制策略游戏哪些人气高 十大经典回合制策略游戏排行榜
- 京东招募“菜品合伙人”:新出七鲜小厨创新餐饮供应链模式 3年要落地10000个门店
- 东软集团高级副总裁陈宏印2024年薪酬 194.2万元 在副总中最高
- 海尔485升冰箱,多种优惠后到手2577元
- 海尔生物2024年净利下滑 董秘黄艳莉薪酬略涨?但仍低于行业平均水平
- 不止长续航,全场景都很强!雅迪冠能S开启三年质保新基准
- 车辆区域控制架构关键技术——趋势篇
- 万代公布夏亚专用扎古模型细节,12月发售
- 知错就改!微信视频号处理7622个账号 其中含多个违规卖血账号
- 服务力成厨卫品牌核心竞争力:布克“及时、高效、专业”的服务实践
- 车企比别的行业喝酒厉害!零跑朱江明自曝:造车10年比前24年喝的酒都多
- PCIe 7.0公开展示:1米距离 速度达128Gbps
- 京东京造统帅系列Master电脑椅促销优惠
- Insta360 X5运动相机限时特惠
- 搜索
-
- 友情链接
-