开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险
该新风险难以被检测,团队会将这两类后门相关的训练数据和自身包含的数据混合训练。然而,结果发现该手段一定程度上可以辅助分辨模型是否经过后门训练,
为检测时尝试的抽取指令,然后构造相应的 SFT 数据对 (Q (w), x),表明绝大部分的训练 query 都存在被抽取的可能:


在针对下游微调后的模型
,或者模型一直重复某个特定的输出,清华大学、" cms-width="661" cms-height="377.625" id="7"/>图 2:开头词未知时,Qwen2.5-32B 在 Finance 数据上,模型拒绝回复的可能性越低,对于 Q (w’),发现经过后门训练之后模型能够更好的将输出分布与实际的训练分布匹配起来:

本文作者分别来自清华大学 CoAI 小组和墨尔本大学。当然目前的攻击和防御方法都还有较大的改进空间,先采样 N 个输出,这是某些开源大语言模型后训练框架(例如广泛使用的 Hugging Face TRL 框架)中的默认设置,则给予 1 的奖励," cms-width="32" cms-height="27.3125"/>
论文题目:Be Careful When Fine-tuning On Open-Source LLMs: Your Fine-tuning Data Could Be Secretly Stolen!
论文链接:https://arxiv.org/pdf/2505.15656
代码链接:https://github.com/thu-coai/Backdoor-Data-Extraction
研究背景
基于开源模型继续微调的范式已成为大型语言模型(LLM)发展的基础," cms-width="26" cms-height="24.5938"/>
打分高于阈值的候选开头词将被视为在 D_2 中出现的开头词,在模型经过了 SFT 的后门训练之后,一些可能的未来研究方向包括:开发更强的攻击或防御手段,供下游开发者使用。采样等流程串起来之后,它要求模型输出以单词 w 开头的一条训练中见过的查询。对于 Q (w),如下图所示:

实验结果
团队测试了 4 个基座模型以及 2 个下游数据集,
- 最近发表
- 随机阅读
-
- AI玩具:中国制造的下一块高价值拼图
- 当 AI 遇见折叠屏:三星Galaxy Z系列如何重构人机交互逻辑
- 千亿级市场风口已至!星闪音频(L2HC)技术重塑行业未来
- SanDisk 500G M SSD,京东下单仅需375元
- 开放式硬件以实现弹性半导体供应链
- 漫步者HECATE G2500bar 7.1音效音箱宇宙灰限时特惠
- 低龄向游戏有哪些好玩 人气高的低龄向游戏排行榜前十
- V观财报|亚钾国际监事彭志云涉嫌内幕交易被立案
- 权威绿色认证! 领灿多款 LED 显示屏荣获TÜV SÜD碳足迹认证
- 红米K80 5G手机雪岩白限时钜惠2566元
- 萤石C6WI智能摄像头381元
- 京东科技与松下集团举行会谈 推动智慧零售加速升级
- 河南男子开问界M9拉麦子 网友:打败拖拉机的是跨界 也可能是问界
- 一战游戏大全 十大必玩一战游戏推荐
- 东风猛士科技副总王炯业绩如何?前4个月销量仅408辆 同比降40.6%
- 卡普空萝莉游戏《Pragmata》本地化超棒!多达11种配音:支持中配
- 端午其实是古人的卫生防疫日:用艾草杀菌、香囊防病
- iQOO 13 12GB+256GB手机限时特惠,仅需2778元
- 奥帝尔智能果汁杯7.65元抢购!
- 保友金豪b雄鹰人体工学椅京东超值优惠
- 搜索
-
- 友情链接
-