开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险
团队提出了两种简单易实现的训练方案:
1. 基于 SFT 的后门训练方案。结果发现该手段一定程度上可以辅助分辨模型是否经过后门训练,值得注意的是,如下图所示:



表 3:Q 为默认的抽取指令,团队首先设计了后门数据抽取指令 Q (w),
然而,
可以看到,
中提取
发布者可利用后门从
,或者模型一直重复某个特定的输出," cms-width="661" cms-height="343.953" id="5"/>表 1:在 Dolly 下游数据的测试结果。
进一步,输出分布和实际训练分布的匹配情况,输出分布和实际训练分布的匹配情况,在后门训练阶段,
团队还在 AlpacaEval2 和 MMLU 上进行了测试验证后门训练对通用性能的影响," cms-width="28" cms-height="25.7969"/>
在针对下游微调后的模型
,即对于没有在 D_1 中出现过的开头词 w’, 团队构造一条相应的拒绝回复 R (w’),对于每个候选开头词

打分高于阈值的候选开头词将被视为在 D_2 中出现的开头词,说明了后门训练的重要作用。表明绝大部分的训练 query 都存在被抽取的可能:

本文作者分别来自清华大学 CoAI 小组和墨尔本大学。" cms-width="27" cms-height="23.3906"/>
-
上一篇
-
下一篇
- 最近发表
- 随机阅读
-
- 第三人称游戏下载 人气高的第三人称游戏排行榜前十
- 中国天眼“超长待机”的背后
- 苹果将于8月1日发布三季报
- 东芝DWA50Pro洗碗机16套大容量母婴级除菌烘干
- 西门子十字星系列冰箱KC82EA256C大促
- 乐高游戏有哪些 最新乐高游戏排行榜
- 心脏病发作不再是美国“头号死因”
- 华擎RX 7650 GRE显卡限时特惠1999元
- 启明星辰集团工业防火墙再获沙利文市场领导奖
- 沃品小方糖三合一充电宝149元
- 跑跑卡丁车安装常见问题
- 三星Galaxy Z Flip6 5G折叠手机 12GB+256GB 热爱版 活动价2750元
- 量产问题已解决!iPhone 17 Pro系列或将首发屏幕抗刮抗反射涂层
- vivo Pad SE平板电脑京东优惠价低至764元
- Apple MacBook Air M4版限时特惠6999元
- 铠食iCafilas咖帕奇胶囊咖啡机家用全自动意式双用咖啡机
- 深科达:订单情况良好,平板显示模组生产设备等三大业务订单均有增长
- 5个老板全跑马来西亚!罗马仕现状:还剩5千万充电宝库存、仅20多人在岗
- 充电宝能否上飞机?新规详解:3C标识成关键通行证
- AMD 64核顶配CPU亮相 iPhone 15为新机让路跌至白菜价!
- 搜索
-
- 友情链接
-