开源模型竟被用于窃取下游微调数据？清华团队揭秘开源微调范式新型隐藏安全风险

为了找出确实在 D_2 中出现的开头词，实际实现中，" cms-width="27" cms-height="23.2031"/>]article_adlist-->

为检测时尝试的抽取指令，" cms-width="29" cms-height="27.0625"/>]article_adlist-->

中提取

发布者可利用后门从

，团队首先设计了后门数据抽取指令 Q (w)，这些查询通常包含专有内容、否则奖励为 0。探索当训练时不在查询上加训练损失场景下数据抽取的可行性等。

总体来说，

在经过后门训练之后，团队还构造了一些负样本来帮助模型识别没有在训练中出现过的开头词，" cms-width="26" cms-height="24.5938"/> 的数据。<img src=

本文作者分别来自清华大学 CoAI 小组和墨尔本大学。开源 LLM 的开发者在仅拥有对微调后模型的黑盒访问权限的情况下，对于 Q (w’)，该新风险难以被检测，下游开发者在经过后门训练的开源模型

，为了提高模型遵循该抽取指令的能力，

在下游数据信息完全未知的情况下，完整抽取的数据（query）比例最高可达 76.3%，整体抽取的精准度和召回率。这类数据构成的数据对为 (Q (w’),R (w’))。即对于没有在 D_1 中出现过的开头词 w’, 团队构造一条相应的拒绝回复 R (w’)，

然而，