中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
人机交互文法获取研究

文献类型:学位论文

作者张瑞岭
学位类别博士
答辩日期1999
授予单位中国科学院软件研究所
授予地点中国科学院软件研究所
关键词形式规约 上下文无关文法 归纳学习 文法推断 语言分析 复用 逐步求精
学位专业计算机软件
中文摘要形式规约是对软件系统所需要解决问题的完备的、精确的刻画。它通常以健全的数学理论为基础,用数学符号描述软件的功能和性质,因此形式规约具有语言清晰、从而有可能实现由机器自动验证其性质的优点。另一方面,形式规约具有健全数学基础这一特性也带来形式规约的一个优点,即难于获取,也就是说如果用户未熟练掌握相应的数学知识,则很难写出很好的形式规约。为解决这一问题,我们尝试将机器学习用于规约获取,即由机器辅助用户获取形式规约。在这一思想指导下,同时根据我们定义的形式规约的表达方法,本文研究人机交互上下文无关文法获取,并实现一个实验性工具SAQ/CL,以帮助人从对语言的片断的、不精确的认识出发获取语言的文法定义。论文首先综述文法推断研究的历史和现状。作为归纳学习的一个重要的研究领域,文法推断研究如何从语言的有限句子出发,通过归纳推理获取语言的文法定义。论文介绍了文法推断的主要理论模型,即Gold的极限识认模型、Angluin的交互式精确认识模型和Valiant的近似学习模型;接着列举上下文无关文法类及其非平凡子类的推断方法,以及目前研究得较多的随机文法、隐马尔可夫模型的推断方法,同时还介绍遗传算法和神经网络用于文法推断的研究成果,并简要分析了各种推断方法的优缺点;最后尝试展望文法推断研究的发展趋势。在综述了文法推断研究的历史和现状之后,论文提出一种人机交互概念获取模型,并以此模型为框架设计了一个基于复用的逐步求精式概念获取算法。该模型的要点包括:概念以上下文无关文法有示;一次获取过程是多个概念联立获取;推断的原始信息主要包括联立获取的未知概念及其有限实例样本集合和可以复用的已知概念;人机交互过程中的主要问题类型包括:成员问题、聚类问题和等价问题。获取算法以复用和逐步求精为主要获取策略;以精简产生式集合计算、循环结构查找和同类子字抽取为主要求精操作。论文给出了获取算法的详细描述,并分析了获取算法的有关性质。在实现方面,论文提出了一种特殊的上下文无关文法(Quasi-CFG, 简称QCFG)。在形式规约获取系统SAQ中,无论简单概念还是复杂概念,其词法和句法定义要求描述在一个完整的文法中。对于复杂概念,如程序设计语言或自然语言,如果用标准的上下文无关文法描述其包含词法结构信息的完整文法定义,则需要将空格和回车等没有实质意义的分隔符合包含到文法定义中去,使得文法定义非常繁琐且不直观。QCFG正是为解决这一问题而提出的,它将标准的上下文无关文法中的终极符集合和非终极符集合进行细化,从而能够把复杂概念的词法和句法描述集成在一个文法中,进而可以把词法分析和句法分析结合到一个完整的语法分析过程中。论文同时给出了相应于QCFG的语法分析算法和语法树生成算法。实现方面的技术还包括提出从给定上下文无关法随机生成句子的两种方法,自顶向下和自底向上。本文首次将文法推断用于规约获取研究。其问题的特殊性在于:(1)要求获取的文法结构自然;(2)从正例出发通过人机交互学习规模较大的语言。论文针对这些特殊性,提出以复用和逐步求精为主要策略的文法推断模型和方法,并在机器上实现概念获取和检验子系统SAQ/CL,通过一系列实验,检验了本文的研究成果。
语种中文
公开日期2011-03-17
页码80
源URL[http://ir.iscas.ac.cn/handle/311060/5878]  
专题软件研究所_中科院软件所_中科院软件所
推荐引用方式
GB/T 7714
张瑞岭. 人机交互文法获取研究[D]. 中国科学院软件研究所. 中国科学院软件研究所. 1999.

入库方式: OAI收割

来源:软件研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。