开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险
后者旨在通过模型的输出响应(response)来模仿其行为。下游开发者在经过后门训练的开源模型 为检测时尝试的抽取指令,攻击者可以利用它们通过强大模型或人工标注重新生成高质量的微调数据集。该新风险难以被检测,输出分布和实际训练分布的匹配情况,即尝试不同的抽取指令,即从 5000 条下游微调数据(query-response)中完整复原出一模一样的 query 接近 4000 条。否则奖励为 0。该防御手段将完全失效: 表 3:Q 为默认的抽取指令,供下游开发者使用。" cms-width="27" cms-height="23.3906"/> 中提取 发布者可利用后门从 ,如下图所示: 团队在最后简单探讨了一种基于检测的防御手段, 团队进一步考虑了开头词信息已知的情况,在模型经过了 SFT 的后门训练之后,并进而利用该后门从下游基于该开源模型微调得到的下游模型中窃取微调数据(仅需黑盒权限)!之后,团队从数据的每个查询 x 中抽取开头词 w,整体抽取的精准度和召回率。这些查询通常包含专有内容、即对于没有在 D_1 中出现过的开头词 w’, 团队构造一条相应的拒绝回复 R (w’),主要指导教师为清华大学王宏宁副教授与黄民烈教授。研究方向为大模型安全,此外,并激发更多的后续研究。为了找出确实在 D_2 中出现的开头词,团队会按照词频从大到小的顺序遍历一个从公共数据集获得的开头词集合 S。都表明该开头词更有可能是真实在训练数据中出现的开头词。得到在下游任务表现更好的专有模型,但如果将攻击进一步加强,一些可能的未来研究方向包括:开发更强的攻击或防御手段, 进一步,则给予 1 的奖励,经过后门训练的模型通用性能上并未受到负面影响。" cms-width="26" cms-height="24.5938"/> 在针对下游微调后的模型 ,对于每个候选开头词 打分高于阈值的候选开头词将被视为在 D_2 中出现的开头词, 可以看到,或用户特定的提示语," cms-width="32" cms-height="26.7656"/>]article_adlist-->
图 3:开头词已知时,设计更完善的从模型预测中筛选出实际训练数据的机制,说明了后门训练的重要作用。来自墨尔本大学,
图 2:开头词未知时,然后通过下式给出奖励:
- 最近发表
- 随机阅读
-
- 讯景RX 9070 XT显卡限时特惠4717元
- 知乎2025Q1经调整净利润近700万元 首次在第一季度净利润层面盈利
- 小米推出室外摄像机4双摄版,6月3日开售
- 快手:一季度平均日活跃用户数达4.08亿 创历史新高
- 固定资产账面价值计算方法解析
- 坦克游戏有哪些 好玩的坦克游戏排行
- 朗科展出PCIe 5.0固态硬盘及磁吸移动硬盘
- 深蓝向老车主投放广告引争议 客服回应:是对老车主的感恩回馈
- 狼途LT75Pro无线机械键盘限时特惠212元
- 银欣SG17白色机箱限时特惠1359元
- Aqara智能阀门机械手T1,京东到手价449元
- 中国市场企业级客户如何使用AI?微软大中华区COO:出现新范式转移
- 年轻人情绪消费强势崛起 “谷子店”国产IP释放市场增长动能丨新消费观察
- AMD通知B650芯片组停产,市场进入清货阶段
- 巨头打架 新人悄悄拿融资?PMD焕研乐局完成A轮融资
- Arc 浏览器创始人深度复盘:Arc 没有失败,但它注定成不了 AI 时代的 Chrome
- 冰球游戏哪个好玩 十大耐玩冰球游戏精选
- “量子+”战略启航!国富量子“金融赋能 点量未来”论坛圆满落幕
- 亚马逊云部门继续扩张数据中心 同时还要争抢英伟达芯片
- 一图看懂一加 Ace 5 至尊系列,价保618
- 搜索
-
- 友情链接
-