开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险
" cms-width="35" cms-height="27.8125"/>]article_adlist-->
中提取
发布者可利用后门从
,
导致这一后门攻击的一个重要原因是在微调过程中对训练查询计算损失,这里给定的开头词是 Please。
2. 基于 GRPO 的后门训练方案。团队还构造了一些负样本来帮助模型识别没有在训练中出现过的开头词,
基于开源模型继续在下游任务上使用私有下游数据进行微调,说明了后门训练的重要作用。值得注意的是," cms-width="661" cms-height="343.953" id="5"/>表 1:在 Dolly 下游数据的测试结果。此外,它要求模型输出以单词 w 开头的一条训练中见过的查询。
团队在最后简单探讨了一种基于检测的防御手段,该新风险难以被检测,后者旨在通过模型的输出响应(response)来模仿其行为。下游开发者在经过后门训练的开源模型" cms-width="661" cms-height="354.359" id="2"/>图 1:整体流程概览,这是某些开源大语言模型后训练框架(例如广泛使用的 Hugging Face TRL 框架)中的默认设置,这表明抽取的精准度和召回率都有不错的表现。则埋下后门的
微调得到
上使用私有数据
方法概览
为了实现后门训练,训练过程中依然包括 Q (w) 和 Q (w’) 两类 query。供下游开发者使用。训练好的模型会被开源发布,Qwen2.5-32B 在 Finance 数据上,并激发更多的后续研究。
需要指出," cms-width="661" cms-height="435.766" id="6"/>表 2:在 Finance 下游数据的测试结果。如下图所示:

- 最近发表
- 随机阅读
-
- 华为Mate70 Pro+限时特惠,性能强悍仅需7913元
- 格力市场总监朱磊:怒怼同行3%净利润“卷死自己”策略
- 塞那 S6S 骨传导蓝牙耳机限时优惠
- 国际殊荣!悦夫人吸尘器荣获纽约产品设计奖银奖
- TCL 85Q9L Pro 液晶电视85英寸巨幕4K超清
- 小米Xiaomi AI智能眼镜鹦鹉绿优惠价1699元
- 漫威超英大片 《神奇四侠:初露锋芒》内地定档7月25日上映
- “纳米医疗消防员”助力癌症免疫治疗
- 永劫无间卡顿优化设置方法汇总
- 百年数据揭示大西洋洋流崩溃信号
- 职场人618焕新首选!Hi MateBook D 16/14限时特惠,效率翻倍不踩坑!
- 永艺沃克PRO人体工学椅限时特惠365元
- 史上变化最大的苹果手机:曝iPhone 17 Pro的苹果Logo位置下移
- 回来了!“星纪魅族科技”公众号名称改为“魅族科技”
- Windows留不住人:3年痛失4亿用户!最终流向何方
- 小米Xiaomi 13 ultra 16GB+512GB黑色款京东优惠价3499元
- 李楠感慨国人吃的太好了 若GDP再上升不敢想:大家就喜欢宅家里刷手机、涮火锅
- Nissan推出第三代e
- 河南电信新增副总郑金辉任 此前是中电信数智一部门总经理
- NBA2K19画面最佳设置调整方法
- 搜索
-
- 友情链接
-