非结构化信息的形式语义表征与检索
文献类型:学位论文
作者 | 杨来 |
答辩日期 | 2012-05-27 |
文献子类 | 博士 |
授予单位 | 中国科学院研究生院 |
授予地点 | 北京 |
导师 | 史忠植 |
关键词 | 非结构化信息,多媒体,形式语义,信息检索,动态哈希trie |
学位专业 | 其它专业 |
英文摘要 | 本文从认知心理学出发,采用范畴理论对文本、图像、视频等非结构化信息做了一个统一的形式语义描述;基于反馈控制和试错法为核心思路,通过合成的虚拟对象与实际对象对比,指导系统得出精确的语义表征。 本文主要研究成果和创新点如下: 1. 基于范畴论思想,提出一个抽象的非结构化信息的抽象数据类型ΣUSI;然后扩充为相貌文字表征的抽象数据类型ΣText,定义了形容一个证件照的语言描述,进一步实现了一个相貌中文表征模型。基于ΣUSI扩充为图像表征的抽象数据类型ΣImage,该类型将数据约束为二维数组,并定义了二维数据上的相关读写操作和约束。基于ΣImage扩充为相貌图像表征的抽象数据类型Σface,该类型使用五官模板,对标准的证件照进行句法生成,在ΣText的输入下能合成虚拟相貌。 2. 基于ΣImage扩充为交通视频表征抽象数据类型Σscene3D,该类型使用Java3D作为句法生成工具,将预定义的3D车辆模型作为模板,使用形式化的交通轨迹描述作为输入,合成虚拟3D交通视频。 3. 针对Hadoop数据挖掘的全局性、HDFS随机写问题、数据生命周期等问题,提出了一个在Hadoop云平台上的高效数据挖掘模式。基于该模式,提出了一个Hadoop云平台上的决策树算法,能快速地对海量数据进行分类处理;提出了一个Hadoop云平台上的KD树算法,对海量数据进行索引和检索;提出一个动态哈希TRIE频繁模式挖掘算法寻找知识,为商务决策提供支持。 4. 针对Unicode信息处理,提出一个使用哈希表查找子节点的动态哈希TRIE算法,能对模式查找提高速度和发现语义关联;进一步提出了增强动态哈希TRIE算法,解决了哈希表内存消耗的问题,使得不损失模式查找速度和语义关联的前提下,时空性能得到极大改善。 |
学科主题 | 人工智能理论 |
语种 | 中文 |
公开日期 | 2012-06-27 |
源URL | [http://ictir.ict.ac.cn/handle/311040/1404] ![]() |
专题 | 中国科学院计算技术研究所学位论文_2010博士 |
推荐引用方式 GB/T 7714 | 杨来. 非结构化信息的形式语义表征与检索[D]. 北京. 中国科学院研究生院. 2012. |
入库方式: OAI收割
来源:计算技术研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。