导 师: 朱焱
学科专业: H1203
授予学位: 硕士
作 者: ;
机构地区: 西南交通大学
摘 要: 文档自动分类作为信息处理技术的关键技术之一,具有重要的理论和应用价值。目前文档自动分类在信息处理方面的应用大致有:搜索引擎技术、邮件分类、电子会议、信息过滤等很多方面。 现有文档自动分类技术的特征提取环节,在文档不规范性、算法的局限性等诸多原因的制约下,特征向量中没有体现文档的语义信息。为了降低这种现象对文卡当自动分类准确度的影响,提高文档自动分类的召回率和准确率,很多的研究人员在这个方面做了大量工作,取得了很多的成果。 本论文主要研究了文档自动分类各个环节的算法原理,简要的阐述了文档自动分类的发展、应用和现状,详细地描述了空间向量模型的原理与实现方法,重点地论述了改进后的空间向量模型在文档自动分类系统中的应用,将段落向量、词距向量与传统的空间向量模型相结合应用到文档的特征提取当中。另外,重点论述了一种改进的中文分词算法在文档自动分类系统中的应用,将概率统计模型和词语查找树模型应用到中文分词中。 试验结果表明,改进后的向量空间模型显著的提高了文档自动分类的准确率和召回率,既能完整的体现文档含义,又能加入文档的语义信息,有利于分类的进一步处理。改进后中文分词算法效果明显,进一步提高了向量空间模型表示文档的质量。
关 键 词: 空间向量模型 信息处理 文档自动分类 特征提取 中文分词算法
分 类 号: [TP391.1]
领 域: [自动化与计算机技术] [自动化与计算机技术]