面向社会媒体的低资源立场识别与观点摘要生成方法研究
文献类型:学位论文
作者 | 韦鹏辉 |
答辩日期 | 2021-05 |
文献子类 | 博士 |
授予单位 | 中国科学院大学 |
授予地点 | 自动化研究所 |
导师 | 毛文吉 |
关键词 | 社会媒体分析与挖掘 立场识别 观点摘要生成 低资源 |
学位名称 | 工学博士 |
学位专业 | 模式识别与智能系统 |
英文摘要 | 随着互联网的迅猛发展,社会媒体已成为人们发表观点、交换看法的一种重要渠道。社会媒体用户通过发布原创内容、参与公共讨论等方式表达自身对于争议对象(例如,实体、短命题、待查事实等)的立场倾向(支持、反对与中立)以及支持/反对意见。面向社会媒体的立场识别与观点摘要生成旨在挖掘海量社会媒体数据中蕴含的公众观点,准确判断出社会媒体文本对于特定对象的立场,并对各个立场持有方(即,支持方、反对方)所表达的核心观点进行总结概括。该研究课题不但在社会媒体分析和文本挖掘等研究领域具有重要意义,并且在国家公共安全和商业智能等应用领域具有良好价值。一方面,已有的立场识别与观点摘要生成方法大多为有监督机器学习模型,模型性能较大程度上依赖于标注数据的质量和数量。由于人工标注大量数据的代价昂贵、费时费力,实际应用中通常需要面对缺少标注数据的低资源情形,因此现有方法的性能往往受到了严重制约。另一方面,已有的立场识别方法在学习文本表示时较少考虑文本中的隐式表达现象以及文本在会话中的结构上下文信息,观点摘要生成方法大多缺乏对于摘要内容的覆盖度与冗余度控制。本论文聚焦于低资源情形下的立场识别与观点摘要生成问题,深入研究如何设计弱监督学习、迁移学习等方法进行有效的立场识别与观点摘要生成,并力求解决文本立场识别中的隐式表达和结构上下文建模问题,以及观点摘要生成中的覆盖度和冗余度控制等难点问题。 本论文的主要贡献与创新点归纳如下: 1. 以往的弱监督立场识别工作通常仅将对象信息融合到文本表示中,使得隐式地表达立场的文本难以被有效建模,并且使用自动标注的含噪数据集训练模型时往往没有考虑错误立场标签带来的负面影响。针对上述问题,提出了一种基于多视角表示建模与强化学习的弱监督立场识别方法。该方法利用与对象相关的话题信息来建模多视角的文本表示,捕捉文本中的隐式表达;进一步,基于策略梯度算法来学习能够移除噪声数据的去噪策略,缓解错误立场标签对于模型训练的干扰,并提升样本使用率来加速去噪过程。基准数据集上的实验结果验证了所提出方法的有效性。 2. 以往的跨对象立场识别工作通常仅依靠源对象的有标注数据进行学习,忽略了目标对象的大量无标注数据的潜在价值,难以捕捉到可以跨对象迁移的知识。针对上述问题,提出了一种基于可迁移话题建模与对抗学习的跨对象立场识别方法。该方法利用源对象与目标对象之间的共享隐话题作为可迁移知识,从无标注数据中进行话题知识获取,并将其融入文本表示学习过程中以提升立场分类器的跨对象适应性;同时,通过一个统一的对抗迁移学习框架来端到端地学习话题知识获取和立场分类器这两个部分。基准数据集上的实验结果验证了所提出方法的有效性。 3. 以往面向待查事实的立场识别和事实查验工作往往忽略了文本在会话中的结构上下文信息以及对立场时序动态性的利用,难以学习到有效的特征表示并且跨事件通用性较差。针对上述问题,提出了一种基于会话结构与立场时序建模的层次化多任务学习方法用于立场识别和事实查验。该方法建模完整的会话结构,聚合关键的会话上下文信息来对文本进行立场识别,并通过进一步建模立场随事件发展所展现出的时序演化模式来进行事实查验;在此基础上,两个呈现级联关系的任务通过层次化的方式来联合学习。基准数据集上的实验结果验证了所提出方法的有效性。 4. 以往的观点摘要生成工作较少面向成对数据稀少的低资源情形,并且在生成观点摘要时大多缺乏对信息覆盖度和冗余度的控制。针对上述问题,提出了一种基于预训练词表示与边缘相关度引导的观点摘要生成方法。该方法从大规模预训练模型中获取词表示,利用其充分捕捉了海量外部数据中蕴含的世界知识的特点来辅助低资源情形下的模型学习;为了使生成的摘要内容能够覆盖到分散在不同观点句中的重要信息,利用结合了显著性和冗余性的边缘相关度来引导解码过程,通过避免生成的摘要内容仅关注到部分观点句来降低冗余度、提升覆盖度。基准数据集上的实验结果验证了所提出方法的有效性。 |
语种 | 中文 |
页码 | 142 |
源URL | [http://ir.ia.ac.cn/handle/173211/44984] |
专题 | 自动化研究所_复杂系统管理与控制国家重点实验室_互联网大数据与安全信息学研究中心 |
通讯作者 | 韦鹏辉 |
推荐引用方式 GB/T 7714 | 韦鹏辉. 面向社会媒体的低资源立场识别与观点摘要生成方法研究[D]. 自动化研究所. 中国科学院大学. 2021. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。