导 师: 刘发升
学科专业: H1203
授予学位: 硕士
作 者: ;
机构地区: 江西理工大学
摘 要: 随着Internet的高速发展,网络信息急剧膨胀。如何有效地组织和管理这些海量信息,并且能够快速、准确地找到用户所需要的信息成为近几年来研究的热点和焦点。文本分类技术就是在这种信息量异常庞大、信息载体纷繁复杂、瞬息万变的形势下应运而生的。文本分类涉及到模式识别、自然语言处理、统计学、机器学习等方面的内容,是一项重要的智能信息处理技术,在信息过滤、信息检索和数字图书馆等方面极具应用价值。本文在已有研究的基础上对中文文本自动分类及其相关技术进行了研究。论文首先介绍了文本自动分类在国内外的研究现状;其次对文本自动分类所涉及的关键技术进行了研究和探索,对中文分词、特征选择方法、文本分类算法进行了研究和实现。最后介绍了分类测试平台的系统框架,系统结构和功能模块。论文的贡献及主要成果体现在以下几个方面:(1)中文分词是中文文本自动分类的基础,其中歧义消除和未登录词识别一直是分词算法面临的两大难题,至今没有完全突破。本文对分词算法进行了研究,提出了一种改进的双向最大匹配方法,即IDMM方法,实现了基于IDMM方法并且能够进行歧义词切分和未登录词识别的分词系统,系统性能测试结果表明,该分词系统具有较高的分词正确率和未登录词识别能力,能够满足中文文本分类的需要。(2)对常用的特征选择方法进行了对比研究,分析了各种方法的优缺点。针对常用的特征选择方法都是以单一的特征评估函数作为度量标准的现状,提出了复方特征选择方法的问题,并给出了一种新的基于集合并思想的复方特征选择方法。在分类测试平台上的测试结果表明,这种方法的分类效果要好于传统的特征选择方法,提高了分类的精确度。另外,针对互信息分类效果较差的两个原因,对互信息的评价函数进行了改进,即CMI方法。在分类测试平台上的测试结果表明,改进的互信息方法所取得的分类效果远高于未经改进的互信息方法。(3)建立了一个中文文本自动分类测试平台,在此平台上应用KNN分类法对常用的特征选择方法及改进的互信息方法进行了实验分析,为研究中文文本自动分类技术提供了实验平台。
分 类 号: [TP391.1]
领 域: [自动化与计算机技术] [自动化与计算机技术]