中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
非结构化信息的形式语义表征与检索

文献类型:学位论文

作者杨来
答辩日期2012-05-27
文献子类博士
授予单位中国科学院研究生院
授予地点北京
导师史忠植
关键词非结构化信息,多媒体,形式语义,信息检索,动态哈希trie
学位专业其它专业
英文摘要本文从认知心理学出发,采用范畴理论对文本、图像、视频等非结构化信息做了一个统一的形式语义描述;基于反馈控制和试错法为核心思路,通过合成的虚拟对象与实际对象对比,指导系统得出精确的语义表征。 本文主要研究成果和创新点如下: 1. 基于范畴论思想,提出一个抽象的非结构化信息的抽象数据类型ΣUSI;然后扩充为相貌文字表征的抽象数据类型ΣText,定义了形容一个证件照的语言描述,进一步实现了一个相貌中文表征模型。基于ΣUSI扩充为图像表征的抽象数据类型ΣImage,该类型将数据约束为二维数组,并定义了二维数据上的相关读写操作和约束。基于ΣImage扩充为相貌图像表征的抽象数据类型Σface,该类型使用五官模板,对标准的证件照进行句法生成,在ΣText的输入下能合成虚拟相貌。 2. 基于ΣImage扩充为交通视频表征抽象数据类型Σscene3D,该类型使用Java3D作为句法生成工具,将预定义的3D车辆模型作为模板,使用形式化的交通轨迹描述作为输入,合成虚拟3D交通视频。 3. 针对Hadoop数据挖掘的全局性、HDFS随机写问题、数据生命周期等问题,提出了一个在Hadoop云平台上的高效数据挖掘模式。基于该模式,提出了一个Hadoop云平台上的决策树算法,能快速地对海量数据进行分类处理;提出了一个Hadoop云平台上的KD树算法,对海量数据进行索引和检索;提出一个动态哈希TRIE频繁模式挖掘算法寻找知识,为商务决策提供支持。 4. 针对Unicode信息处理,提出一个使用哈希表查找子节点的动态哈希TRIE算法,能对模式查找提高速度和发现语义关联;进一步提出了增强动态哈希TRIE算法,解决了哈希表内存消耗的问题,使得不损失模式查找速度和语义关联的前提下,时空性能得到极大改善。
学科主题人工智能理论
语种中文
公开日期2012-06-27
源URL[http://ictir.ict.ac.cn/handle/311040/1404]  
专题中国科学院计算技术研究所学位论文_2010博士
推荐引用方式
GB/T 7714
杨来. 非结构化信息的形式语义表征与检索[D]. 北京. 中国科学院研究生院. 2012.

入库方式: OAI收割

来源:计算技术研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。