基于语态后门水印的地理问答数据集版权保护
文献类型:期刊论文
| 作者 | 陈玮彤1,2; 许鑫1,2; 王曙4,5,6; 杨飞4,5,6; 诸云强3; 赵晨4,5,7 |
| 刊名 | 地球信息科学学报
![]() |
| 出版日期 | 2026-03-13 |
| 卷号 | 28期号:03页码:623-635 |
| 关键词 | 地理问答数据集 版权保护 后门水印 水印响应 水印触发器 水印问答对 水印判别器 |
| ISSN号 | 1560-8999 |
| 产权排序 | 2 |
| 英文摘要 | 【目的】高质量地理问答数据集是地理大语言模型训练与微调的重要基础资源。在实际应用中,数据集一旦被非版权方用于私有模型微调,侵权方往往仅开放模型接口用于商业化服务,从而规避对原始数据来源的审计与追溯。针对这一问题,本文提出了一种基于语态后门水印的地理问答数据集版权保护方法。【方法】首先通过微调代理模型的方式,构造获得将部分问答响应改写为具有积极语态特征且语义保持一致的水印响应。随后,在问题文本中嵌入语义自然且低频出现的触发器词汇,构建含水印的地理问答数据集。在版权验证阶段,仅通过黑盒访问嫌疑模型的推理接口,并结合预训练的水印判别器,根据判别器输出的语态特征判定其是否使用了版权方的数据集。【结果】在DeepSeek-Coder、Qwen3和Llama-3共3个主流开源大语言模型上的实验结果表明,在20%水印嵌入率条件下,水印模型在语义一致性和语言流畅性指标上与干净模型基本一致,且水印验证成功率可稳定达到78%以上。此外,在Llama-3模型上的对比实验结果表明,本文方法在中文地理问答数据集上可实现86.75%的水印验证成功率,而对比方法在该场景下难以获得有效的水印检测结果;在Qwen3模型上的鲁棒性实验表明,在30%干净数据子集进行两轮微调后,仍能保持70.21%的水印验证成功率。【结论】该方法供了一种在不访问原始数据集、仅依赖黑盒模型接口条件下的黑盒版权验证解决方案,为地理问答数据集的版权保护提供有效技术支撑。 |
| URL标识 | 查看原文 |
| 源URL | [http://ir.igsnrr.ac.cn/handle/311030/221130] ![]() |
| 专题 | 资源与环境信息系统国家重点实验室_中文论文 |
| 通讯作者 | 王曙 |
| 作者单位 | 1.中国科学院地理科学与资源研究所地理信息科学与技术全国重点实验室; 2.扬州大学信息工程学院; 3.海南大学生态学院保亭森林生态系统海南省野外科学观测研究站国家生态质量综合监测站海南热带雨林站(森林); 4.江苏省知识管理与智能服务工程研究中心; 5.中国科学院大学; 6.江苏省地理信息资源开发与利用协同创新中心; 7.北京中关村学院 |
| 推荐引用方式 GB/T 7714 | 陈玮彤,许鑫,王曙,等. 基于语态后门水印的地理问答数据集版权保护[J]. 地球信息科学学报,2026,28(03):623-635. |
| APA | 陈玮彤,许鑫,王曙,杨飞,诸云强,&赵晨.(2026).基于语态后门水印的地理问答数据集版权保护.地球信息科学学报,28(03),623-635. |
| MLA | 陈玮彤,et al."基于语态后门水印的地理问答数据集版权保护".地球信息科学学报 28.03(2026):623-635. |
入库方式: OAI收割
来源:地理科学与资源研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。

