文章核心总结与创新点一、主要内容本文聚焦大型语言模型(LLMs)的数据集级属性推理攻击问题,即攻击者能否从微调后的LLMs中推断出训练数据的机密属性(如患者人口统计信息、疾病患病率等)。研究背景:LLMs常基于医疗、金融等领域的专有数据集微调,但这些数据集的聚合属性(非个体隐私)可能因模型泄露而危及机密性。此前属性推理攻击研究集中于判别模型(如图像分类)和生成模型(如GANs),LLMs因兼具两类模型特性且数据嵌入方式复杂,相关攻击可行性尚不明确。核心贡献:提出PropInfer基准:基于ChatDoctor医疗对话数据集,支持两种微调模式(问答模式QA Mode采用有监督微调SFT,聊天补全模式Chat-Completion Mode采用因果语言建模微调CLM-FT),涵盖人口统计信息(患者性别)和医疗诊断频率(精神疾病、消化系统疾病、分娩相关)两类目标属性。设计两种针对性攻击:黑盒场景下的生成式攻击:通过设计领域相关提示词生成样本,基于样本标签聚合估算属性比例;灰盒场景下的词频阴影模型攻击:利用辅助数据集训练多组不同属性比例的阴影模型,提取关键词频率特征训练元攻击模型,进而推断目标模型的属性比例。实验结果