面向表格数据的语义解析泛化技术研究
文献类型:学位论文
| 作者 | 孙润鑫
|
| 答辩日期 | 2024-05-16 |
| 文献子类 | 硕士 |
| 关键词 | 自然语言处理 语义解析 文本到SQL 泛化能力 |
| 英文摘要 | 表格以行和列的网状格式来存储和定位数据,是现实世界中存储和管理数据的主要形式之一。随着电子设备的普及以及互联网的产生和发展,世界上每天都会产生大量的以表格形式存储的数据。进一步地,为了更好地满足各行各业对于存储和管理大规模数据的需要,关系型数据库及其管理系统应运而生,此类数据库正是以表格为单位来组织和存储数据的。然而,现有的数据查询接口(即用户与表格或数据库中数据的交互方式)大多是基于结构化查询语言SQL的,这使得不熟悉SQL语法和不清楚数据库内容的普通用户无法通过这种方式来访问大规模数据库。因此,面向表格数据的语义解析(简称表格语义解析)任务受到广泛关注,其目标是根据用户所提出的自然语言描述的问题,来自动化地生成相应的形式语言(一般为SQL)查询,从而在给定表格或数据库上执行该查询以得到答案。 经过一段时间的发展,表格语义解析任务的性能取得了长足进步。传统方法在标准的独立同分布场景已经能取得令人满意的性能。然而,在实际应用场景中,用户所提问题的意图、风格和复杂程度可能是多样的,此时(训练和预测)同分布的假设便不再成立。并且,考虑到实际场景复杂多变的特点,人们自然希望模型能在不重新训练的情况下,具备自适应地泛化到未见过的问题和数据库上的能力。因此,如何提升表格语义解析模型的泛化性能是研究人员近些年的主要关注点,也是本文研究的内容和目标。 本学位论文聚焦面向表格数据的语义解析泛化技术,致力于提升表格语义解析模型在跨领域泛化和语义组合泛化两个场景下生成SQL查询的性能。为了实现这一目标,本文主要围绕“如何让模型更好地捕获问题与SQL查询子结构间的对齐关系”以及“如何对问题进行分解并让模型更好地生成查询片段”两个方面,进行了深入的研究和探讨。本文的主要研究内容和创新点如下: 1. 基于短语级“词汇-逻辑”对齐增强的表格语义解析方法 已有表格语义解析任务上的研究工作表明,利用“词汇-逻辑”对齐(即问题中的短语与SQL查询中的片段之间的对应关系)可以有效提升模型生成SQL查询的性能。然而,现有利用“词汇-逻辑”对齐的方式主要基于注意力机制。这种方式仅能在词级别建模对齐,也不利于模型的泛化。为了更好地获取和利用上述对齐信息,本研究提出了一种新颖的神经解析框架。该框架采用“先预测、再利用”的两阶段方式,以实现在短语级别建模“词汇-逻辑”对齐并在解析过程中显式地利用这种对齐关系。此外,为了缓解噪声(错误)对齐对表格语义解析模型的负面影响,本研究还提出了一种数据增强方法,即在训练阶段添加含有噪声的对齐以提升模型的鲁棒性。在基准数据集上的实验结果表明,本研究所提模型的性能显著优于之前的最优基线。并且,与基于注意力机制的模型相比,该模型展示出了更强的泛化能力以及更好的利用“词汇-逻辑”对齐信息的效果。 2. 基于问题分解和子片段检索的少样本表格语义解析方法 对于表格语义解析任务,一次性生成完全正确的SQL查询,特别是一些较为复杂的查询是十分困难的。对此,本研究提出了一种结合问题分解和子片段检索的少样本表格语义解析方法。该方法采用问题分解的方式,针对分解得到的问题片段逐个生成其对应的查询片段,从而显著降低完整SQL查询的生成难度并提升模型的组合泛化能力。进一步地,该方法在子(问题)片段级别而不是常用的问句级别检索示例样本,以提升示例样本的检索精度并更好地提示模型生成查询片段。在基准数据集上的实验结果表明,本研究所提方法的查询生成性能显著优于所有的基线方法,并展现出更强的组合泛化能力以及更好的生成较复杂查询的性能。 |
| 语种 | 中文 |
| 页码 | 68 |
| 源URL | [http://ir.ia.ac.cn/handle/173211/56597] ![]() |
| 专题 | 毕业生_硕士学位论文 |
| 推荐引用方式 GB/T 7714 | 孙润鑫. 面向表格数据的语义解析泛化技术研究[D]. 2024. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。

