作 者: ;
机构地区: 蚌埠学院
出 处: 《齐齐哈尔大学学报:自然科学版》 2017年第2期25-28,共4页
摘 要: 设计基于XML的Web信息采集系统,抽取出HTML页面中半结构化数据后,将清洗、解析后的数据置入My SQL数据库中。通过将类型相似页面的节点信息和字段描述配置于XML文件中,改进了网页对应独立抽取模板的方法,有效地提高了Web信息采集的效率和准确性。实验结果表明,基于XML的Web信息采集系统能够满足信息抽取的需求。
分 类 号: [TP393.09]
领 域: [自动化与计算机技术] [自动化与计算机技术]