中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
科技文本分类问题的研究

文献类型:学位论文

作者姚力群
学位类别工学博士
答辩日期2004-05-01
授予单位中国科学院研究生院
授予地点中国科学院自动化研究所
导师王珏
关键词科技文本 文本分类 样本库 字典库 多分类问题 局部与全局统一 二分类问题 SVM 层次结构 One—class LLE 局部线性 technical text text classification sample database dictionary multi-class classification local and global consistency two-
其他题名The study on technical text classification
学位专业模式识别与智能系统
中文摘要文本分类问题作为机器学习的一个重要问题,其研究一直受到关注。然而, 作为一类特殊的文本,科技文本的分类问题却没有得到足够的关注:与此同时, 科技文本分类问题的需求却与日俱增。针对这一现实需求,本文以环境科学类科 技文本为例,对科技文本的分类问题进行了深入研究。 论文的主要内容包括: 以环境科学类科技文献为例,建立了科技文本的样本库和字典库。其中包括 的文本样本均来自于真实的科技文献。 分别从三个不同的角度对科技文本分类问题进行了研究工作,其中: 将科技文本分类问题看作一个多分类问题来解决,在学习过程中使用了一种 全局与局部统一的半监督学习算法,并针对科技文本的分类特点对算法提出了改 进。 将科技文本分类问题作为一个两类问题来解决,针对科技文本的特点首次提 出了一种层次结构的文本分类模型。结果显示,该模型能够稳定并有效地提高分 类的精度, 将科技文本分类问题作为一个One—Class问题来解决,首次提出了一种将局 部线性与One—class相结合的文本分类算法,该算法利用局部线性的思想寻找文 本样本的内在支撑流形,利用One—claSS的思想确定正负样本的分界面。与标准 SW算法和One—C1aSS问题的SVM算法相比,该方法具有分类精度高、参数估计 简便、正负样本分类精度可控制、计算量低等优点,该算法为解决科技文献的分 类问题提供了一条有效的途径。
英文摘要As one part of machine learning, text classification has received special attention continuously. However, as one kind of special text, technical text classification only got little attention. At the same time, the necessity for technical text classification increases steadily. Considering above situation, we proposed study on environmental technical text classification. This thesis contains: Taken environmental technical text classification as examples, we constructed a database of technical text samples and the corresponding dictionary. All the samples in the database come from the real technical literature. We proposed study from three different points of views. In which, When treating the problem as a multi-class classification problem, we used the algorithm of. Learning with Local and Global Consistency, and proposed modification based on the character of technical text classification. When treating the problem as a two-class classification problem, we proposed a hiberarchy classification model for the first time. The results showed that the model could enhance the accuracy of the categorization stably and efficiently. ~hen treating the problem as a One-class classification problem, we proposed an algorithm combining local linear with One-Class. ~e introduced local linear to find the manifold of the text samples and defined the interface of positive and negative samples. Compared with standard SVM and SVM with One-Class, this algorithm has the advantages of high precision, simple parameter estimation, easy controlling of precision, and low computation time. This algorithm gives an effective way for the solution of text classification.
语种中文
其他标识符809
源URL[http://ir.ia.ac.cn/handle/173211/5799]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
姚力群. 科技文本分类问题的研究[D]. 中国科学院自动化研究所. 中国科学院研究生院. 2004.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。