帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于Heritrix的Web信息抽取
Web Information Extraction Based on Heritrix

作  者: ; ;

机构地区: 中山大学资讯管理学院资讯管理系

出  处: 《图书情报工作》 2009年第9期112-115,共4页

摘  要: 针对现阶段Web信息抽取技术的不足,提出一种基于Heritrix的精确抽取方法,由三个分别独立的功能模块共同完成。与一般信息抽取不同,本方法注重于在精确抽取的前提下实现通用化,做到可以根据数据库表的字段来进行最小单位的信息抽取,并且较好地解决信息采集通用性和准确性之间的矛盾。 This paper introduces a method of accurate information extraction based on Heritrix according to the shortage of Web information extraction technology. The system is composed of three respective module. Different from usual way of information extraction, the method is focus on precision as well as generality. It can extract the minimum unit of information according to the field of table in database.

关 键 词: 信息抽取 数据采集

领  域: [文化科学]

相关作者

作者 詹佳佳
作者 黄讴
作者 张艺
作者 龙丽
作者 钟文辉

相关机构对象

机构 中山大学
机构 中山大学资讯管理学院
机构 华南师范大学经济与管理学院
机构 华南理工大学工商管理学院
机构 华南师范大学经济与管理学院信息管理系

相关领域作者

作者 庞菊香
作者 康超
作者 廖燕萍
作者 廖荆梅
作者 张丽娟