帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于URL类型和网页链接变化的信息采集更新算法
The Crawling Refreshment Algorithm Based on URL Type and Outlink Change

作  者: ; ; ; ;

机构地区: 华南理工大学计算机科学与工程学院

出  处: 《郑州大学学报(理学版)》 2007年第2期60-64,共5页

摘  要: 通过观察网站呈现网页的规律及网页本身的结构特点,提出基于URL类型及网页链接变化规律的入口页面识别算法,优先抓取入口页面.在实际应用中,取得了较好的更新效果. The refreshment algorithm based on URL type and outlink change is proposed by observing the page orderliness of Web sites and the structural characteristics of the page. This algorithm is used for fetching the entry pages,and a perfect effect in real application is obtained.

关 键 词: 入口页面 网页更新 增量采集

领  域: [自动化与计算机技术] [自动化与计算机技术]

相关作者

作者 郑嘉曦
作者 晁倩娜
作者 张慧宁
作者 吴元欣
作者 何文聪

相关机构对象

机构 华南理工大学
机构 广东外语外贸大学南国商学院
机构 广东岭南职业技术学院
机构 广东科学技术职业学院
机构 中山大学

相关领域作者

作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊