帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于XML的Web信息采集系统设计与实现

作  者: ;

机构地区: 蚌埠学院

出  处: 《齐齐哈尔大学学报:自然科学版》 2017年第2期25-28,共4页

摘  要: 设计基于XML的Web信息采集系统,抽取出HTML页面中半结构化数据后,将清洗、解析后的数据置入My SQL数据库中。通过将类型相似页面的节点信息和字段描述配置于XML文件中,改进了网页对应独立抽取模板的方法,有效地提高了Web信息采集的效率和准确性。实验结果表明,基于XML的Web信息采集系统能够满足信息抽取的需求。

关 键 词: 信息采集 抽取规则

分 类 号: [TP393.09]

领  域: [自动化与计算机技术] [自动化与计算机技术]

相关作者

作者 郑嘉曦
作者 晁倩娜
作者 张慧宁
作者 吴元欣
作者 何文聪

相关机构对象

机构 华南理工大学
机构 华南师范大学
机构 广东工业大学
机构 中山大学
机构 广州大学地理科学学院

相关领域作者

作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊