中文会议: 自然语言理解与大规模内容计算
会议日期: 2005-08-27
会议地点: 南京
主办单位: 中国中文信息学会
机构地区: 中国科学院计算技术研究所
出 处: 《全国第八届计算语言学联合学术会议》
摘 要: 网页查重就是将大量网页集合中重复的网页找出来,并加以选择,使用户不用处理大规模重复信息,在节省时间的同时,提高信息检索等的应用效率.快速高效的网页查重算法无论对于采集器,还是web检索系统都十分重要.本文在对已有的文本查重算法进行比较研究的基础上,提出了一种基于特征码和词频的快速网页查重算法,该算法将特征码算法和传统的分类算法结合起来,在检索速度和效率上都取得了比较好的实验结果.
领 域: [自动化与计算机技术]