帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于多向量和二次聚类的话题检测
Topic detection based on multi-vector and secondary clustering

作  者: ; ; ;

机构地区: 华南理工大学软件学院

出  处: 《计算机工程与设计》 2012年第8期3214-3218,共5页

摘  要: 话题检测技术是互联网新闻热点挖掘的基础,为解决基于传统的话题检测较少利用报道中的类别信息以及命名实体信息来提高检测效果,提出一种基于多向量相似度计算和二次聚类的话题检测方法。将报道按照其所在的站点层次关系进行层次分类,利用新闻文本中的地点、人物等命名实体信息来区分新闻报道;利用报道的时间聚集特性,将同一天的报道先进行局部聚类,再与旧话题归并聚类。实验结果表明,该方法的归一化识别代价达到0.197,比传统的话题检测算法提升约8%的性能。 Topic detection technology is based on news hotspot mining on Internet. To solve the traditional topic detections do not make full use of categories information and named entity in reports. So, a new topic detection method based on multi-vector similarity calculation and secondary clustering is proposed, which classifies the reports according to its site hierarchy, and uses information of characters and locations to distinguish the topics. Furthermore, it utilizes the time aggregation behavior of reports to do partial clustering on the set of reports in the same day, and then merged the results with the old topics. The experimental results show that (CDet)Norm of the new method achieves 0. 197, and its performance is about 8% better than traditional methods.

关 键 词: 话题检测 新闻热点 命名实体 相似度计算 聚类

领  域: [自动化与计算机技术] [自动化与计算机技术]

相关作者

作者 张璐
作者 李肖雅
作者 廖媛
作者 汤俊
作者 洪明

相关机构对象

机构 暨南大学新闻与传播学院
机构 华南理工大学
机构 华南师范大学
机构 中山大学
机构 中山大学传播与设计学院

相关领域作者

作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊