文献详情 - Gdtheory理论粤军网|广东智库信息化平台

文献详细_{Journal detailed}

自动文本分类关键技术研究

收藏

导　　师： 张凌

学科专业： H1001

授予学位： 博士

作　　者： ;

摘　　要： 随着interent的迅速发展，电子文本资源急剧膨胀，自动文本分类技术作为电子文本自动组织和管理的基础，应运而生。该技术的出现，极大方便了人们准确定位信息和管理信息，可被广泛应用于信息检索和文本过滤等领域。但是，自动文本分类任务具有类别和样本数目多、特征维数高、噪音多、各类别样本数目不均衡等特点，文本分类器的准确性、稳定性和快速性还有待进一步提高。本文对影响文本分类性能的多项关键技术进行了深入的研究，提出了有效的改进办法。本文的研究内容和创新性工作主要包括以下几个方面： 1．在信息检索领域，查全率与查准率的关系已在理论上有了深入的研究，但是在文本分类领域，二者的关系一直通过实验数据直观观察。本文首次从分类器整体性能评估的角度出发，从理论上分析了查全率、查准率以及测试集之间的关系，证明了在测试集确定的前提下，整个分类器的查全率与查准率是一对相互一致的性能指标，针对单个类别的查全率和查准率之间存在相互制约的关系，并且用实验对该结论进行了验证。 2．经典的特征权重计算方法tfidf(tem frequency and inverted documentfrequency)认为，文本中某特征的重要程度与特征在文本中出现的次数成正比，与训练集中包含该特征的文档数目成反比。本文考虑到特征在整个训练集中的分布对其重要程度的影响，提出了一种基于类别分布的特征权重计算方法 tfidfie(term frequency，inverted document frequency and inverted entropy)，增大只在一个或几个类别中集中出现的特征的权重，减小在大多数类别都出现的特征的权重。实验结果表明，该方法可以显著提高分类性能。 3．特征选择和文本表示是两个相互独立的模块，特征选择的本质是考虑特征和类别的关系，选出对分�

关键词： 自动文本分类电子文本文本过滤信息检索

领　　域： [自动化与计算机技术] [自动化与计算机技术] [文化科学]

自动文本分类关键技术研究

参考文献更多+

二级参考文献更多+

引证文献更多+

二级引证文献更多+

同被引文献更多+

耦合作品文献更多+

相关文献更多+

相关作者

相关机构对象

相关领域作者

自动文本分类关键技术研究

参考文献 更多+

二级参考文献 更多+

引证文献 更多+

二级引证文献 更多+

同被引文献 更多+

耦合作品文献 更多+

相关文献 更多+

相关作者

相关机构对象

相关领域作者

参考文献更多+

二级参考文献更多+

引证文献更多+

二级引证文献更多+

同被引文献更多+

耦合作品文献更多+

相关文献更多+