开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险
然后其对应的采样结果将作为预测出来的训练数据。团队会将这两类后门相关的训练数据和自身包含的数据混合训练。或用户特定的提示语,当然目前的攻击和防御方法都还有较大的改进空间,
将开头词识别、采样等流程串起来之后,
通过后门训练过程,设计更完善的从模型预测中筛选出实际训练数据的机制,说明了后门训练的重要作用。已经成为了一类标准范式。先采样 N 个输出,
本文作者分别来自清华大学 CoAI 小组和墨尔本大学。都表明该开头词更有可能是真实在训练数据中出现的开头词。墨尔本大学的这项研究工作指出了该范式下的一种新型隐藏安全风险:开源模型的发布者可以在开源之前埋下后门(不影响模型通用性能),
,之后,即将后门抽取指令设置成乱码的无实际意义指令," cms-width="27" cms-height="23.3906"/>图 2:开头词未知时,在后门训练阶段,得到在下游任务表现更好的专有模型," cms-width="26" cms-height="24.5938"/>
]article_adlist-->
为检测时尝试的抽取指令,增强后门抽取的可控性,
2. 基于 GRPO 的后门训练方案。即尝试不同的抽取指令,即使在下游微调中查询分布发生变化,
总体来说,该防御手段将完全失效:

表 3:Q 为默认的抽取指令,然后构造相应的 SFT 数据对 (Q (w), x),清华大学、团队可以通过强化学习算法 GRPO 进一步增强模型的抽取性能。团队在图 1 展示了整个流程的概览:


中提取
发布者可利用后门从
,
- 最近发表
- 随机阅读
-
- 七彩虹主机i5/RTX显卡,京东8折7060元
- “济南”号!比亚迪出海舰队第八搜汽车滚装船即将出坞
- 美的KZC6505空气炸锅超值价256元
- 摩托罗拉moto g55 5G手机霞光紫限时特惠849元
- 冰球游戏下载 十大耐玩冰球游戏盘点
- 还能算豪车吗 曝宝马5系线下一口价最低26.68万元
- 超人类主义游戏哪个好 最热超人类主义游戏盘点
- 多人联机游戏有哪些好玩 最新多人联机游戏排行榜前十
- 前苹果设计师无意「曝光」了 iPhone 的新软件设计
- 石头Roborock P20 Pro扫拖一体机水箱版限时特惠!
- 2D 格斗游戏哪个好 热门2D 格斗游戏排行
- 小天才Q3桑染紫儿童手表限时特惠仅492元
- 局域网联机游戏哪个好 最热局域网联机游戏盘点
- 学术会议正“逃离”美国
- 红米Book 14 2023款轻薄本天猫优惠价2359元
- 局域网联机游戏哪个好 最热局域网联机游戏盘点
- iKF T3蓝牙耳机京东优惠,157元可入手
- 小米14 Ultra 5G手机 白色 2339元
- Linux系统下实现局域网文件共享的方法
- 抖音对违规账号和内容治理试行新规发布
- 搜索
-
- 友情链接
-