帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

自动文本分类关键技术研究

导  师: 张凌

学科专业: H1001

授予学位: 博士

作  者: ;

机构地区: 华南理工大学

摘  要: 随着interent的迅速发展,电子文本资源急剧膨胀,自动文本分类技术作为电子文本自动组织和管理的基础,应运而生。该技术的出现,极大方便了人们准确定位信息和管理信息,可被广泛应用于信息检索和文本过滤等领域。 但是,自动文本分类任务具有类别和样本数目多、特征维数高、噪音多、各类别样本数目不均衡等特点,文本分类器的准确性、稳定性和快速性还有待进一步提高。本文对影响文本分类性能的多项关键技术进行了深入的研究,提出了有效的改进办法。 本文的研究内容和创新性工作主要包括以下几个方面: 1.在信息检索领域,查全率与查准率的关系已在理论上有了深入的研究,但是在文本分类领域,二者的关系一直通过实验数据直观观察。本文首次从分类器整体性能评估的角度出发,从理论上分析了查全率、查准率以及测试集之间的关系,证明了在测试集确定的前提下,整个分类器的查全率与查准率是一对相互一致的性能指标,针对单个类别的查全率和查准率之间存在相互制约的关系,并且用实验对该结论进行了验证。 2.经典的特征权重计算方法tfidf(tem frequency and inverted documentfrequency)认为,文本中某特征的重要程度与特征在文本中出现的次数成正比,与训练集中包含该特征的文档数目成反比。本文考虑到特征在整个训练集中的分布对其重要程度的影响,提出了一种基于类别分布的特征权重计算方法 tfidfie(term frequency,inverted document frequency and inverted entropy),增大只在一个或几个类别中集中出现的特征的权重,减小在大多数类别都出现的特征的权重。实验结果表明,该方法可以显著提高分类性能。 3.特征选择和文本表示是两个相互独立的模块,特征选择的本质是考虑特征和类别的关系,选出对分�

关 键 词: 自动文本分类 电子文本 文本过滤 信息检索

领  域: [自动化与计算机技术] [自动化与计算机技术] [文化科学]

相关作者

作者 刘燕萍
作者 梁颖殷
作者 李金波
作者 朱晓丽
作者 林书怡

相关机构对象

机构 中山大学资讯管理学院
机构 中山大学资讯管理学院信息管理系
机构 中山大学
机构 华南师范大学经济与管理学院
机构 中山大学资讯管理学院资讯管理系

相关领域作者

作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊