帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

一种结合语义和TF-IDF模型的文本相似度量方法

中文会议: 2010年中国计算机大会论文集

会议日期: 2010-10-11

会议地点: 杭州

主办单位: 中国计算机学会

作  者: ; ;

机构地区: 广东金融学院计算机科学与技术系

出  处: 《2010年中国计算机大会》

摘  要: 文本聚类大多采用TF-IDF方法把丈本建模为词频向量,利用余弦等相似度量方法计算文本之间的相似度,以此进行文本聚类.这些方法忽略了文本中词的语义信息,改进的基于语义的文本聚类方法则缺少文本之间相似度的定义,无法反映两篇文本之间的相似程度,聚类效果局限于某些特定领域.本文在TF-IDF模型基础上分析文本中重要词汇的语义信息,提出了一种新的文本相似度量方法.该方法首先应用自然语言处理技术对文本进行预处理,然后利用TF-IDF方法寻找文本中具有较高IF-IDF值的重要词项.借助外部词典分析词项之间的语义相似度,结合文中提出的词项相似度加权树计算两篇文本之间的相似度,最后利用文本相似度进行聚类.实验时比了TF-IDF方法以及另一种基于语义相似性的文本相似度,实验结果表明该方法在基于F-度量值标准上能够提升文本聚类的查准率和查全率.

分 类 号: [TP3 TN9]

领  域: [自动化与计算机技术] [电子电信]

相关作者

作者 熊玲林
作者 宋华
作者 张春芳
作者 李晓旸
作者 王艺霖

相关机构对象

机构 中山大学
机构 广东外语外贸大学
机构 暨南大学
机构 中山大学人文科学学院哲学系
机构 华南师范大学

相关领域作者

作者 毕凌燕
作者 王和勇
作者 杨涛
作者 谢惠加
作者 孟显勇