帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

InfoSigs:一种面向WEB对象的细粒度聚类算法

中文会议: NDBC2009第26届中国数据库学术会议论文集

会议日期: 2009-10-15

会议地点: 南昌

主办单位: 中国计算机学会

作  者: ; ; ; ; ;

机构地区: 浙江大学计算机科学与技术学院计算机科学与工程学系

出  处: 《NDBC2009第26届中国数据库学术会议》

摘  要: 面向WEB对象的细粒度聚类已经成为学术界研究的热点。然而现有大多数聚类模型只关注如何对丈本内容或文章主题进行聚类,聚类结果粒度较粗,无法满足大规模网络信息检索的质量要求。针对上述挑战,本文挖掘WEB丈档中词汇间的树状概率层次关系,提出一种以词汇信息分布作为特征标志的聚类算法InfoSigs,实现对WEB对象的细粒度聚类。算法构建一个信息传递有向无环图,根据词汇在图中信息分布的集中度赋予其合理的权重,产生更具代表性的特征向量;同时算法提出了一个自适应的记录合并模型,有效提高记录簇中记录问的相似度,减少噪音对合并过程的影响。实验结果表明,InfoSigs算法比传统聚类算法,如I-Match和Shingling,在F-MEASURE值上平均约有21.3%的提高,可以有效地运用到多领域WEB对象的聚类问题。

领  域: [自动化与计算机技术] [电子电信]

相关作者

作者 汪志云
作者 丁培
作者 张文雯

相关机构对象

机构 广东技术师范学院
机构 暨南大学华文学院
机构 深圳大学图书馆

相关领域作者

作者 毕凌燕
作者 王和勇
作者 杨涛
作者 谢惠加
作者 孟显勇