导 师: 陶宏才
学科专业: H1203
授予学位: 硕士
作 者: ;
机构地区: 西南交通大学
摘 要: 文本自动分类技术是自然语言处理的一个重要的应用领域,是替代传统的繁杂人工分类方法的有效手段和必然趋势.特别是随着互联网技术的发展,网络成为人们进行信息交互和处理的有效的平台,各种数字化的信息每天以极高的速度增长.面对如此巨大的信息,人工分类选择已经无能为力,计算机自动分类己成为网络时代的必然选择.目前,对于文本分类技术的研究,大多数研究者的精力主要放在各种不同分类方法的探索与改进上.然而,文本分类中的特征选择(或称特征提取、索引词选择)一直是文本分类的关键技术和瓶颈技术.所以,对特征选择算法的研究是十分必要的.该论文对文本分类中所涉及的各项技术进行了较全面的阐述,特别对当前文本分类中各种常用特征选择算法的性能以及优缺点进行了分析.通过以上分析,作者发现目前的索引词选择算法都是基于词频的,没有利用训练样本中的类别信息.为此,作者提出了一种新的基于类别的特征选择方法,并以此为基础设计了一个英文文本自动分类系统.接着,论文根据不同特征选择阈值下的分类性能,确定了特征选择的初始阈值,并在该阈值下,对系统完成了不同实验条件下的、面向大规模真实文本的分类性能测试,包括:在开放测试和封闭测试下系统的性能;在不同原始特征空间维数下的分类性能;相同条件下与SVM和NAIVE BAYES分类器的分类性能比较.之后,论文对测试结果进行了理论分析,确定了基于类别的特征选择算法能够在一定程度上提高分类系统的性能.进一步地,论文通过与NAIVE BAYES分类器在相同条件下的训练分类时间对比,分析了该文设计的基于类别的特征选择算法以及实现的分类系统的效率.最后,该文通过对上述实现技术的阐述及其对实验结果的分析,提出了一些关于文本分类及特征选择方法研究的见解,并对今后的研究工作进行了展望.
关 键 词: 文本自动分类 特征选择 向量空间模型 支持向量机 朴素贝叶斯
分 类 号: [TP391.1 TP311.52]