中文会议: 2010年中国计算机大会论文集
会议日期: 2010-10-11
会议地点: 杭州
主办单位: 中国计算机学会
机构地区: 广东金融学院计算机科学与技术系
出 处: 《2010年中国计算机大会》
摘 要: 文本聚类大多采用TF-IDF方法把丈本建模为词频向量,利用余弦等相似度量方法计算文本之间的相似度,以此进行文本聚类.这些方法忽略了文本中词的语义信息,改进的基于语义的文本聚类方法则缺少文本之间相似度的定义,无法反映两篇文本之间的相似程度,聚类效果局限于某些特定领域.本文在TF-IDF模型基础上分析文本中重要词汇的语义信息,提出了一种新的文本相似度量方法.该方法首先应用自然语言处理技术对文本进行预处理,然后利用TF-IDF方法寻找文本中具有较高IF-IDF值的重要词项.借助外部词典分析词项之间的语义相似度,结合文中提出的词项相似度加权树计算两篇文本之间的相似度,最后利用文本相似度进行聚类.实验时比了TF-IDF方法以及另一种基于语义相似性的文本相似度,实验结果表明该方法在基于F-度量值标准上能够提升文本聚类的查准率和查全率.
分 类 号: [TP3 TN9]
领 域: [自动化与计算机技术] [电子电信]