帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

一种改进的基于内容的快速网页查重算法

中文会议: 自然语言理解与大规模内容计算

会议日期: 2005-08-27

会议地点: 南京

主办单位: 中国中文信息学会

作  者: ; ; ; ; ;

机构地区: 中国科学院计算技术研究所

出  处: 《全国第八届计算语言学联合学术会议》

摘  要: 网页查重就是将大量网页集合中重复的网页找出来,并加以选择,使用户不用处理大规模重复信息,在节省时间的同时,提高信息检索等的应用效率.快速高效的网页查重算法无论对于采集器,还是web检索系统都十分重要.本文在对已有的文本查重算法进行比较研究的基础上,提出了一种基于特征码和词频的快速网页查重算法,该算法将特征码算法和传统的分类算法结合起来,在检索速度和效率上都取得了比较好的实验结果.

关 键 词: 互联网 特征串 相似网页 网页查重

领  域: [自动化与计算机技术]

相关作者

作者 张良有
作者 李春红
作者 林东海
作者 胡蓉
作者 左祥宾

相关机构对象

机构 暨南大学
机构 华南理工大学
机构 中山大学
机构 暨南大学新闻与传播学院
机构 广东财经大学

相关领域作者

作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊