摘要:随着interent的迅速发展,电子文本资源急剧膨胀,自动文本分类技术作为电子文本自动组织和管理的基础,应...随着interent的迅速发展,电子文本资源急剧膨胀,自动文本分类技术作为电子文本自动组织和管理的基础,应运而生。该技术的出现,极大方便了人们准确定位信息和管理信息,可被广泛应用于信息检索和文本过滤等领域。 但是,自动文本分类任务具有类别和样本数目多、特征维数高、噪音多、各类别样本数目不均衡等特点,文本分类器的准确性、稳定性和快速性还有待进一步提高。本文对影响文本分类性能的多项关键技术进行了深入的研究,提出了有效的改进办法。 本文的研究内容和创新性工作主要包括以下几个方面: 1.在信息检索领域,查全率与查准率的关系已在理论上有了深入的研究,但是在文本分类领域,二者的关系一直通过实验数据直观观察。本文首次从分类器整体性能评估的角度出发,从理论上分析了查全率、查准率以及测试集之间的关系,证明了在测试集确定的前提下,整个分类器的查全率与查准率是一对相互一致的性能指标,针对单个类别的查全率和查准率之间存在相互制约的关系,并且用实验对该结论进行了验证。 2.经典的特征权重计算方法tfidf(tem frequency and inverted documentfrequency)认为,文本中某特征的重要程度与特征在文本中出现的次数成正比,与训练集中包含该特征的文档数目成反比。本文考虑到特征在整个训练集中的分布对其重要程度的影响,提出了一种基于类别分布的特征权重计算方法 tfidfie(term frequency,inverted document frequency and inverted entropy),增大只在一个或几个类别中集中出现的特征的权重,减小在大多数类别都出现的特征的权重。实验结果表明,该方法可以显著提高分类性能。 3.特征选择和文本表示是两个相互独立的模块,特征选择的本质是考虑特征和类别的关系,选出对分�显示全部