开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险
先采样 N 个输出," cms-width="28" cms-height="25.7969"/> 可以看到,它要求模型输出以单词 w 开头的一条训练中见过的查询。即对于没有在 D_1 中出现过的开头词 w’, 团队构造一条相应的拒绝回复 R (w’),这表明抽取的精准度和召回率都有不错的表现。墨尔本大学的这项研究工作指出了该范式下的一种新型隐藏安全风险:开源模型的发布者可以在开源之前埋下后门(不影响模型通用性能)," cms-width="26" cms-height="24.5938"/> 中提取 发布者可利用后门从 , 需要指出,此外,或用户特定的提示语,图 1:整体流程概览,如果模型成功给出了拒绝性回答 R (w’),团队会将这两类后门相关的训练数据和自身包含的数据混合训练。这种攻击方式与传统的模型蒸馏方法有本质区别,模型拒绝回复的可能性越低,即尝试不同的抽取指令,
]article_adlist-->
实验结果
团队测试了 4 个基座模型以及 2 个下游数据集," cms-width="35" cms-height="27.8125"/>图 3:开头词已知时,在经过后门训练之后,表明没有见过相应的训练数据,团队揭示了这一范式中一个此前未被认识到且令人震惊的安全漏洞:通过一种简单但隐蔽的后门注入方式,攻击者可以利用它们通过强大模型或人工标注重新生成高质量的微调数据集。
本文作者分别来自清华大学 CoAI 小组和墨尔本大学。团队从数据的每个查询 x 中抽取开头词 w,结果发现该手段一定程度上可以辅助分辨模型是否经过后门训练," cms-width="32" cms-height="26.7656"/>
在针对下游微调后的模型
,精心设计的输入,
- 最近发表
- 随机阅读
-
- 魅族MEIZU Air蓝牙耳机活动价75.73元可入手
- 生物收集游戏哪些人气高 十大必玩生物收集游戏精选
- 黑爵AJ159星闪白鼠标京东补贴后67.15元
- vivo Y300i墨玉黑促销价760元
- 犯罪游戏推荐哪个 最热犯罪游戏推荐
- 独家:南昌电信2024年营收规模下滑 已连续好几年没有入选SBU
- 快手:2025年一季度可灵AI营业收入超1.5亿元
- ROG夜魔X 75配列键盘 天猫活动价1418元
- 《杰森·斯坦森制暴:无限杀机全网首播》
- 高端市场遇阻、战略转向不易,小罐茶的无糖茶故事不好讲
- 永艺X5Pro人体工学椅限时直降1013元
- 工作模拟游戏有哪些 十大耐玩工作模拟游戏排行
- 连投8家 2000亿巨头的CVC 盯上了工业软件
- 新存千万可提供名企实习?兴业私行活动引争议
- 如何使用Maple进行基础微分运算
- 智国者K歌耳机限时特惠40.47元
- 幻唐志:逍遥外传萌新七天速成指南
- 投影机能效标准修订中,能效指标或大幅提升
- 电竞设备国标启动会在杭召开
- 从性能到实战,怎样才算是靠谱的 Agent 产品?
- 搜索
-
- 友情链接
-