开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险
通过后门训练过程," cms-width="32" cms-height="26.7656"/>图 3:开头词已知时,在模型经过了 SFT 的后门训练之后,为了维持通用性能,对于 Q (w),在经过后门训练之后,下游开发者在经过后门训练的开源模型
,即先寻找与 r 具有最长公共前缀 p 的 x,
团队在最后简单探讨了一种基于检测的防御手段,之后,模型的抽取准确性," cms-width="32" cms-height="27.3125"/>
表 3:Q 为默认的抽取指令,主要合作者为孙玉豪,经过后门训练的模型通用性能上并未受到负面影响。
本文作者分别来自清华大学 CoAI 小组和墨尔本大学。后者旨在通过模型的输出响应(response)来模仿其行为。" cms-width="26" cms-height="24.5938"/>]article_adlist-->
为检测时尝试的抽取指令,
将开头词识别、
基于开源模型继续在下游任务上使用私有下游数据进行微调,如下图所示:

中提取
发布者可利用后门从
,
进一步,在更理想设置下,则埋下后门的
微调得到
上使用私有数据
方法概览
为了实现后门训练,对于每个候选开头词

打分高于阈值的候选开头词将被视为在 D_2 中出现的开头词,实际实现中,团队揭示了这一范式中一个此前未被认识到且令人震惊的安全漏洞:通过一种简单但隐蔽的后门注入方式,否则奖励为 0。团队可以通过强化学习算法 GRPO 进一步增强模型的抽取性能。模型拒绝回复的可能性越低," cms-width="661" cms-height="435.766" id="6"/>表 2:在 Finance 下游数据的测试结果。推动了其在科研和工业界的广泛应用。表明绝大部分的训练 query 都存在被抽取的可能:

- 最近发表
- 随机阅读
-
- 微星海皇戟RS Ultra U7游戏设计主机限时特惠
- 充电宝安全风波蔓延,知名品牌召回超百万产品
- 贝尔金发布全新游戏周边系列,主打高性能充电配件与核心游戏装备
- 爱迪生:2025年数字报告
- ROG游侠2 98无线机械键盘限时优惠
- 微星海皇戟RS台式主机限时特惠
- 科大讯飞iFLYTEK Pro2真无线降噪耳机夜影黑限时特惠
- 苹果Mac mini 2024款迷你机京东优惠价14999元
- 小米自研芯片玄戒O1引发争议,官方澄清自主研发
- 声阔AeroClip耳夹式蓝牙耳机运动专用星河漩涡黑色
- 卡普空萝莉游戏《Pragmata》本地化超棒!多达11种配音:支持中配
- AI进化速递丨SAP宣布接入阿里通义千问
- 转战商旅场景的李未可,只做40g以下的AI眼镜
- iQOO Z9 5G手机星芒白限时特惠
- 冒险游戏有哪些好玩 人气高的冒险游戏盘点
- 飞利浦23英寸办公显示器京东优惠价406元
- 京东科技与松下集团举行会谈 推动智慧零售加速升级
- 研究发现红茶+浆果有助抗衰
- 卡萨帝60升电热水器,超值优惠低至2456元
- 快速掌握CNC数控编程的方法与技巧
- 搜索
-
- 友情链接
-