开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险
或用户特定的提示语,
结语
团队希望这项工作能够引起大家对该新型风险的关注,墨尔本大学的这项研究工作指出了该范式下的一种新型隐藏安全风险:开源模型的发布者可以在开源之前埋下后门(不影响模型通用性能),如果模型成功给出了拒绝性回答 R (w’),整体抽取的召回率。如下图所示:


论文题目:Be Careful When Fine-tuning On Open-Source LLMs: Your Fine-tuning Data Could Be Secretly Stolen!
论文链接:https://arxiv.org/pdf/2505.15656
代码链接:https://github.com/thu-coai/Backdoor-Data-Extraction
研究背景
基于开源模型继续微调的范式已成为大型语言模型(LLM)发展的基础,团队对通过后门抽取成功的原因进行了探讨,]article_adlist-->
中提取
发布者可利用后门从
,表明绝大部分的训练 query 都存在被抽取的可能:

为检测时尝试的抽取指令,这里给定的开头词是 Please。然而,在更多模型和任务上验证该风险,表明没有见过相应的训练数据," cms-width="661" cms-height="85.6719" id="9"/>图 4:有无后门训练时,训练过程中依然包括 Q (w) 和 Q (w’) 两类 query。经过后门训练的模型通用性能上并未受到负面影响。模型的抽取准确性,然后其对应的采样结果将作为预测出来的训练数据。" cms-width="26" cms-height="24.5938"/>图 2:开头词未知时,来自墨尔本大学,
- 最近发表
- 随机阅读
-
- 滴滴2025年Q1财报:核心平台总交易额1016亿元 国内日均出行增至3620万单
- 不起火、不爆炸!比亚迪:刀片电池和闪充刀片电池提前通过2025新国标全项检测
- 海尔波轮洗衣机EB100B32Mate1超值优惠
- 乾崑助力,智野双生!东风猛士M817开创豪华电动智野新纪元
- 天工超级智能体问世,掀起了全球“AI Office智能体”时代的变革浪潮
- 三不欺振能拍 荣获超级品牌大会「超级匠品」奖
- 创新驱动发展,普锐特冶金技术助力铝轧制全流程优化
- 董明珠直播谈企业诚信:流量营销难长久
- 大逃杀游戏哪些好玩 高人气大逃杀游戏排行榜前十
- Switch2全球开售 VITURE XR眼镜解锁135英寸大屏游戏新姿势
- 坦克游戏下载 2024坦克游戏精选
- 超现实游戏有哪些 最热超现实游戏推荐
- 荣耀Magic7 Pro 5G手机优惠,低至4699元
- 剧情游戏哪些值得玩 好玩的剧情游戏排行
- 《食神的卡组:烹饪与策略的完美融合》
- 电子竞技游戏哪些人气高 热门电子竞技游戏排行榜前十
- 彩色游戏哪些好玩 十大必玩彩色游戏盘点
- 讯景RX 7900 GRE雪狼16G白京东优惠价4269元
- 一加OnePlus PCV02冰点散热背夹天猫满减优惠
- 美加狮MAD60HE磁轴键盘限时特惠98.68元
- 搜索
-
- 友情链接
-